(一)将原始资料按其数值大小重新排列
只有把得到的原始资料按其数值大小重新排列顺序,才能看出变量分布的集中趋势和特点,为确定全距、组距和组数作准备。
(二)确定全距
确定全距前,要检查数据组两端有没有极端值。如果有极端值且个数较少,应考虑将极端值归入开口组,计算全距前,可去掉极端值。
(三)确定组距和组数
组距=全距/组数,当全距一定时。组距越大,组数就越少;组距越小,组数就越多,在实际应用中。组距一般应采用整数,最好是5或10的整倍数。
(四)确定组限
组限要根据变量的性质来确定。如果变量值相对集中,无特大或特小的极端值时,则采用闭口式:反之,如果有特大或特小的极端值时,则采用开口式,将极端蚊归入开口组中。
(五)编制变量数列
经过上述四个步骤以后,就可以把总体各单位按变量值的大小分配到各组,计算各组的次数和频率 。2100433B
分配数列有两个构成要素。即总体按某标志所分的组和各组对应的次数或频率。
分配数列的第一个构成要素就是总体按某标志所分的组。根据分组标志的不同,分配数列可分为品质分配数列和变量分配数列。按品质标志分组形成的分配数列叫品质分配数列,简称品质数列;按数量标志分组形成的分配数列叫变量分配数列,简称变量数列。变量数列又可以分为单项式数列和组距式数列,组距式数列又可以分为等距数列和不等距数列。它们都是由相应的统计分组形成的。
对品质数列来说,由于用品质标志来区分事物的各种类型表现得比较明确,因此,品质数列一般比较稳定,能较好地反映总体各单位的分布特征。但对变量数列来说,因为事物性质的差异是用数量界限来表现的,而数量界限往往会受人们主观认识的影响,同一数量标志分组可能会出现多种分布状态。这就涉及各组频数和频率的问题。
分配数列的第二个构成要素就是各组对应的单位数——次数,次数也叫频数,常用
在变量分配数列中,频数或频率表明对应组标志值的作用程度。频数或频率数值越大,表明该组标志值对总体水平所起的作用也越大;反之,频数或频率数值越小,表明该组标志值对总体水平所起的作用越小。
分配数列中各组的频数或频率不能为0,如果某一组的频数或频率为0,应删除这一组。
有时候,为了更简便地概括总体各单位的分布特征,还需要编制累计频数数列和累计频率数列。累计方法有向上累计和向下累计两种。
向上累计就是向变量的上限方向累计,是指将各组频数或频率由变量值较低的组向变量值较高的组累计,各累计数的意义是各组上限以下的累计频数或频率。当我们关注标志值较小的各组分布情况时,可采用向上累计方法。
向下累计就是向变量的下限方向累计,是指将各组频数或频率由变量值较高的组向变量值较低的组累计,各累计数的意义是各组下限以上的累计频数或频率。当我们关注标志值较大的各组分布情况时,可采用向下累计方法。
分析变量的分布状况,一般应采用等距数列。此时,各组的频数或频率就能很好地反映变量的分布状况。如果是不等距数列,则应采用各组的次数密度或频率密度才能正确反映变量的分布状况。次数密度和频率密度的计算公式如下:
次数密度=某组次数/该组组距;频率密度=某组频率/该组组距
社会经济现象总体的性质不同,其次数分布的特征也不同。各种社会经济现象总体的次数分布,归纳起来主要有钟型分布、U型分布、J型分布和洛伦兹分布四种类型。
钟型分布
钟型分布是正态分布的俗称,其特征是“中间高,两头低”,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少,形如古钟(见图1)。
在社会经济现象中,钟型分布多表现为对称分布。对称分布的特征是中间的变量值分布的次数最多,以标志变量中心为对称轴。两侧变量值分布的次数随着与中心变量值距离的增大而渐次减少,并且围绕中心变量值两侧呈对称分布。这种分布在统计学中称为正态分布。在社会经济现象中,许多变量的分布近似于正态分布类型。如从业人员的年收入、农作物单产、零件尺寸、学生考试成绩、社会财富分布等。正态分布在社会经济统计学中具有重要意义。这是因为,一方面。社会经济现象中大部分分布呈近似正态分布;另一方面,正态分布理论是抽样推断的基础。
U型分布
U型分布的特征与钟型分布正好相反,靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头高,中间低”的U字型分布。例如,人口死亡现象按年龄分布便是如此。由于人口总体中幼儿和老年人死亡人数较多,而中年人死亡人数较少,因此,死亡人数按年龄分组便近似地表现为U型分布,如图2所示。
J型分布
在社会经济现象中,一些统计总体分布曲线呈J型,即次数随着变量值的增加而增加。如农作物产量按土地面积分布、人口数按零售商品销售额分布、工人数按总产值分布、库存量按库存费用分布等,如图3所示。也有次数随着变量值的增加而减少的倒J型分布。如企业数按投资额分布、人口数按年龄大小分布等,如图4所示。
洛伦兹分布
洛伦兹分布曲线是美国统计学家洛伦兹(M.Lorenz)提出来的,专门用以研究社会收入分配的平等问题。
在图5中。横轴OH表示人口的累计百分比,纵轴OM表示收入的累计百分比,弧线OL为洛伦兹曲线。洛伦兹曲线的弯曲程度有着重要的意义,它反映了收入分配的不平等程度。弯曲程度越大,收入分配越不平等,反之亦然。
洛伦弦曲线与对角线之间的部分A 叫做“不平等面积”,直角三角形OHL的面积(A B)叫做“完全不平等面积”。不平等面积与完全不平等面积之比,就是基尼系数,也称集中系数:基尼系数=
基尼系数等于1,表示收入分配绝对不平等;基尼系数等于0,表示收入分配绝对平等。基尼系数是衡量,一个国家或地区贫富差距的标准之一。按照联合国有关组织规定:基尼系数若低于0.2表示收入平均;0.2-0.3表示比较平均;0.3=0.4表示相对合理;0.4-0.5表示收入差距较大;0.5以上表示收入差距悬殊。通常把0.4作为收入分配差距的“警戒线”。发达国家的基尼系数在0.26-0.38之间,我国2013年全国居民收入的基尼系数为0.473。
洛伦兹曲线的拓展可以运用于其他社会经济现象,研究总体各单位标志变异状况——变量分布的均匀性或分布的集中程度,因此,洛伦兹曲线又称集中曲线。如研究产品市场份额在各企业的集中度以及分析固定资产投资额在各地区的集中度等 。
在统计分组的基础上,把总体的所有单位数按组归并排列,形成各组单位数在总体中的分布,称统计分布。统计分布的实质是,把总体的全部单位按某标志所分的组进行分配所形成的数列,也可称为分配数列或分布数列。在每次把某个单位分配到某一组时,人们常常说分配了一次,所以,分配数列又叫次数分布。分配数列有两个构成要素:一是总体按某标志所分的组;二是各组对应的单位数——次数。
统计分布形式十分简单,但在统计研究中却有着重要的意义。统计分布是统计分析结果的一种重要表现形式,也是统计分析的一种重要方法。它可以表明总体各单位的分布特征和结构状况,并有助于我们进一步研究标志的构成、平均水平及其变动规律。从文字含义看,统计分布理论性强一些,分配数列更通俗一点。以下交叉使用这两名词 。
PP项目吧,可以都可以取到的,程序自己乘就行了
看设计,看机柜大小 PDU有6孔也与10孔,一个交换机用一个孔
新版软件都可以单独显示剔槽工程量,先识别墙体,并把墙体修改为砌块墙,然后识别管线,软件自动可以显示剔槽工程量。 山东刚性阻燃管包含剔槽补槽,其他不含,第二册有单独子目。
对巷道施工月进度进行了统计检验。检验表明,月进度服从于正态分布。然后提出了由计算机产生随机数、按正态分布模拟月施工速度、进而求出一条巷道施工工期的模拟确定方法。实例验证,其结果令人满意。
应用金属原位分析仪对某进口厚钢板中C、Si、Mn、P、S、Ni、Cr、Mo等元素的偏析状态进行了检测,分析了所检测的该厚钢板横截面上两个区域中各主要合金元素偏析状态的特点。通过将原位分析的检测结果与应用火花源原子发射光谱法和ICP-AES法及红外吸收法的分析结果进行对比,发现C、Si、Mn、P、Ni、Cr、Mo元素在该厚钢板的不同区域呈不同的偏析特征,说明应用原位统计分布分析技术进行偏析检测能够更充分地定量反映所测样品各元素的偏析状态。
统计量的分布叫抽样分布。它与样本分布不同,后者是指样本x1,x2,…,xn的联合分布。
统计量的性质以及使用某一统计量作推断的优良性,取决于其分布。所以抽样分布的研究是数理统计中的重要课题。寻找统计量的精确的抽样分布,属于所谓的小样本理论(见大样本统计)的范围,但是只在总体分布为正态时取得比较系统的结果。对一维正态总体,有三个重要的抽样分布,即Ⅹ分布、t分布和F分布。
Ⅹ分布 设随机变量x1,x2,…,xn是相互独立且服从标准正态分布N(0,1),则随机变量的分布称为自由度为n的Ⅹ分布(其密度函数及下文的t分布、F分布的密度函数表达式均见概率分布)。这个分布是 F.赫尔梅特于1875年在研究正态总体的样本方差时得到的。若x1,x2,…,xn是抽自正态总体N(μ,σ)的简单样本,则变量服从自由度为n-1的Ⅹ分布。若x1,x2,…,xn服从的不是标准正态分布,而依次是正态分布N(μi,1)(i=1,2,…,n),则的分布称为非中心Ⅹ分布,称为非中心参数。当δ=0时即前面所定义的Ⅹ分布。为此,有时也称它为中心Ⅹ分布。中心与非中心的Ⅹ分布在正态线性模型误差方差的估计理论中,在正态总体方差的检验问题中(见假设检验),以及一般地在正态变量的二次型理论中都有重要的应用。
t分布设随机变量ξ,η独立,且分别服从正态分布N(δ,1)及自由度n的中心Ⅹ分布,则变量的分布称为自由度n、非中心参数δ的非中心t分布;当δ=0时称为中心t分布。若x1,x2,…,xn是从正态总体N(μ,σ)中抽出的简单样本,以塣记样本均值,以记样本方差,则服从自由度n-1的t分布。这个结果是英国统计学家W.S.戈塞特(又译哥色特,笔名“学生”)于 1908年提出的。t分布在有关正态总体均值的估计和检验问题中,在正态线性统计模型对可估函数的推断问题中有重要意义,t分布的出现开始了数理统计的小样本理论的发展 。
亦称“估计量”,抽样总体(即样本)计算的统计指标,也就是抽样指标或样本指标。如样本的平均数、众数、中位数、标准差、相关系数等,都是样本统计量。根据这些统计量可以推断总体分布或有关特征数(即总体参数)的可靠性。由于样本是根据随机原则从总体中抽取的,因而样本统计量本身也是一个随机变量,在同一总体的不同样本中,其各自的统计量各有不同,它是随着样本的变化而变化的。
国际上,约于20世纪30年代开始绘制降水量多年均值的等值线图。各国大都制有各种时段的降水、径流和陆而蒸发的多年均值和变差系数的等值线图,或不同频率时这些水文要素值的等值线图。中国于20世纪50年代开始分析研究,并在1 963年正式出版《中国水文图集》(参见水文图集)。70~80年代,绘制并出版了各种短历时暴雨的统计参数等值线图(参见暴雨等值线图)。19 80~1985年,在首次全国水资源评价时,重新绘制了
全国、流域和分省的年降水量、年径流量和年陆而蒸发量均值和变筹系数等值线图,以及Cs/ Cv值的分区图。