【文档说明】数据分布特征的度量课件.ppt,共(100)页,1.434 MB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-6091.html
以下为本文档部分文字说明:
2022/11/131第4章统计数据分布特征的度量统计学STATISTICS2022/11/132第4章统计数据分布特征的度量一、集中趋势的度量二、离散趋势的度量三、偏态和峰态的度量四、Excel在数据分布特征度量中的应用统计学STATISTICS2022/11/13
3本章学习目标1.掌握反映数据集中趋势度量值——众数、中位数、四分位数、均值的概念及应用场合;2.掌握反映数据离散趋势度量值——异众比率、四分位差、极差、平均差、方差、标准差及离散系数的概念及应用场合;3.了解反映数据分布形态度量
值——偏态系数和峰态系数的测度方法;4.熟练运用Excel进行描述统计量分析。统计学STATISTICS2022/11/134数据的分布特征分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰态系数四分位差异众比率偏态系数四分位数统计学STATISTICS2022/11/135一、集
中趋势的度量(一)众数(二)中位数与四分位数(三)均值(四)众数、中位数与均值的比较统计学STATISTICS2022/11/1361.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.从不同的
角度考虑,反映集中趋势的测度值有多个集中趋势统计学STATISTICS2022/11/1371.出现次数最多的变量值,用mo表示2.不受极端值的影响3.主要用于分类数据,也可用于顺序数据和数值型数据4.一组数据可能没有众数或有几个众数5.众
数只有在数据较多时才有意义,当数据量较少时,不宜使用众数。(一)众数(mode)0m统计学STATISTICS2022/11/138•无众数原始数据:10591268一个众数原始数据:357555多于一个众数原始数据:25
2828364242统计学STATISTICS2022/11/139解:这里的变量为“饮料品牌”,不同饮料的品牌就是变量值。在所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品
牌,即mo=可口可乐1.根据未分组数据或单项分组确定众数序号ABCDE12345678910旭日升冰茶露露旭日升冰茶可口可乐百事可乐可口可乐汇源果汁可口可乐露露可口可乐可口可乐旭日升冰茶可口可乐百事可乐露露旭日升冰茶旭日升冰茶百事可乐可口可乐旭日升冰茶旭日升冰茶可口可乐可口可乐
旭日升冰茶露露旭日升冰茶可口可乐露露百事可乐百事可乐汇源果汁露露百事可乐可口可乐百事可乐汇源果汁可口可乐汇源果汁可口可乐汇源果汁露露可口可乐旭日升冰茶百事可乐露露汇源果汁可口可乐百事可乐露露旭日升冰茶统计学STATISTICS2022/1
1/1310解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意241089345308363115
10合计300100.0统计学STATISTICS2022/11/1311产品数(件)工人人数(人)1718192028105合计25解:表中日加工产品数为变量,变量值19的工人人数最多,即出现次数最多,所以Mo=19件统计学STA
TISTICS2022/11/13122.根据组距分组数据确定众数首先,要确定众数所在的组,若为等距分组数据,次数最多的那个组就是众数所在组;若为异距分组数据,需将其换算为次数密度(或标准组距次数),换算后次数密度最多的一组才是众数所在组。然
后,运用差值公式来计算众数的近似值。下限公式:dlm2110上限公式:dum2120表示众数所在组的下限表示众数所在组的上限表示众数所在组的频数与下限的邻组频数之差表示众数所在组的频数其上限的邻
组频数之众数所在组的组距统计学STATISTICS2022/11/1313某地区利润额的频数分布按利润额分组(万元)企业数(个)200-30019300-40030400-50042500-60018600以上11合计120【例】dlmo
211(万元)33.433100241212400om统计学STATISTICS2022/11/1314解:首先,确定众数所在组。本例为等距分组数据,频数数值最大的组就是众数所在组。即企业数最多的组“400-500”就是众数所在组。然后,运用众数的插值公式计算众数。
dlm2110(万元)33.433100)1842()3042(3042400(万元)33.433100)1842()3042(18425002120dum统计学STATISTICS2022/11/1315•
排序后处于中间位置上的值me50%50%•主要用于顺序数据,也可用数值型数据,但不能用于分类数据•不受极端值的影响,在总体标志值差异很大时,具有较强的代表性。•各变量值与中位数的离差绝对值之和最小,即minemx(二)中位数与四分位数1.中位数统计学STATISTICS2022/
11/1316变量值34556910中位数5平均值6与中位数离差-2-100145与平均数离差-3-2-1-1034绝对数值之和1314统计学STATISTICS2022/11/1317首先,对数据进行排序,然后确定中位数的位置;最后,确定中
位数的具体数值。原始数据:分组数据:21n中位数位置2n中位数位置统计学STATISTICS2022/11/1318(1)根据未分组数据确定中位数为偶数为奇数n
nmnnnexx21x)12()2()21(统计学STATISTICS2022/11/1319【例】某汽车公司的营销部经理随机抽取9个汽车销售门店了解5月份的汽车销售情况,获得的汽车销售额(单位:万元)数据分别为:700、400、200、1000、1000、1200、1400、1000、120
0。试计算这9个汽车销售门店销售额的中位数。解:首先,对销售额(万元)数据进行排序,依次为:200、400、700、1000、1000、1000、1200、1200、1400;然后,计算中位数位置:521921n最后
,找出第5个位置的变量值,即(万元)1000)21(nexm。统计学STATISTICS2022/11/1320•【例】:10个家庭的人均月收入数据•排序:6607507808509601080125015001630
2000•位置:123456789105.5211021n位置102021080960}{21)21()2(nnexxm中位数统计学STATISTICS2022/11/1321解:中位数的位置为300/2=150从累计频数看,中位数在“一般”这一组别
中。因此me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—(2)根据单项分组数据确定中位数统计学STATISTICS2022/11/
1322【例】某企业某日工人的日产量资料如下:日产量(件)工人人数(人)向上累计次数(人)10111213147010038015010070170550700800合计800—xf计算该企业该日全部工人日产量的
中位数。em统计学STATISTICS2022/11/1323(3)根据组距分组数据计算中位数第一步,根据中位数位置及累计次数确定中位数组;第二步,用插补公式计算中位数的近似值。dfcflmmme12下限公式:dfcfummme12上限公
式:表示比中位数所在组下限小的各组累计次数表示比中位数所在组上限大的各组累计次数统计学STATISTICS2022/11/1324【例】某车间50名工人月产量的资料如下:月产量(件)工人人数(人)向上累计次数(人)200以下200~400
400~600600以上373283104250合计50—计算该车间工人月产量的中位数。Xf统计学STATISTICS2022/11/1325•排序后处于25%和75%位置上的值•不受极端值的影响•主要用于顺序
数据,也可用于数值型数据,但不能用于分类数据•计算方法与中位数的类似。qlqmequ25%25%25%25%2.四分位数统计学STATISTICS2022/11/1326原始数据:4)1(341nqnqul位置位置分组数据:434nqnqul位置位置四分
位数位置的确定统计学STATISTICS2022/11/1327【例】:9个家庭的人均月收入数据•原始数据:15007507801080850960200012501630•排序:750780850960108012
50150016302000•位置:1234567895.74)19(35.2419位置位置ulqq15652163015008152850780ulqq统计学STATISTICS2022/11/1328解:ql位置=(30
0)/4=75qu位置=(3×300)/4=225从累计频数看,ql在“不满意”这一组别中,qu在“一般”这一组别中。因此,ql=不满意,qu=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不
满意一般满意非常满意2410893453024132225270300合计300—【例】统计学STATISTICS2022/11/13291.集中趋势的最常用测度值2.一组数据的均衡点所在,反映这组数据的一般水平3.将
各个数据之间的数量差异抽象掉,体现数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据(三)均值均值算术均值调和均值几何均值统计学STATISTICS2022/11/1330
1.算术均值(average)•数据集中趋势最主要的测度值•适用于数值型数据,不适用于用文字表示的分类数据和顺序数据•凡是总体各单位的标志值之和等于总体的标志总量时,均可使用算术均值来反映总体的一般水
平。•算术均值通常用“”表示,其基本计算公式为:x总体单位总量总体标志总量算术均值x统计学STATISTICS2022/11/1331设一组数据为:x1,x2,…,xn或各组的组中值为:x1,x2,…,xk相应的频数为:f1,f2,…,fk简单算术
均值nxnxxxxn21fxfffffxfxfxxkkk212211加权算术均值统计学STATISTICS2022/11/1332平均每人日销售额元558527905440750480600520n
xx某售货小组5个人,某天的销售额分别为520元、600元、480元、750元、440元,则:【例】统计学STATISTICS2022/11/1333【例】某企业某日工人的日产量资料如下:日产量(件)工人人数(人)总日产量(件)101
1121314701003801501007001100456019501400合计8009710计算该企业该日全部工人的平均日产量。xfxf(台)31.128009710fxfx2022/11/1334已改至此!!某电脑公司销售量数据分组表按销售量(台)分组组中值(x)频数(f
)xf140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084
558013952640472537003315205017209001175合计—12022200(台)18512022200fxfx【例】某电脑公司近4个月的日销售量资料如下:本例为组距分组数据,取各组的组中值作为该组的代表值用于计算
;此时求得的算术均值只是其真值的近似值。统计学STATISTICS2022/11/1335fxfx分析:成绩(分)人数(人)甲班乙班丙班603915010013950平均成绩(分)619980权数变量值统计学STATISTICS20
22/11/1336表现为次数、频数、单位数;即公式中的fxfxf表现为频率、比重;即公式中的).(ffxfxfxff指在计算均值的过程中起着权衡轻重作用的次数或频率,反映了各组的变量值对均值的影响程度权数绝对权数相对权数•若各组权数相同,则
各组的次数或频率也就失去了权衡轻重的作用,加权算术均值就转化为简单算术均值。统计学STATISTICS2022/11/1337⒈变量值与其算术均值的离差之和等于零,即:⒉变量值与其算术均值的离差平方和为最小,即:0)(0)(fxxxx或min)(min)(22
fxxxx或算术均值的主要数学性质统计学STATISTICS2022/11/13381x2x3x4x5x6x123456785x-1-1-2130)1(13)2(01)(xx16)1(13)2(01)(2222222
xx离差的概念统计学STATISTICS2022/11/1339•均值的另一种表现形式,是变量值倒数的算术均值的倒数。•易受极端值的影响•计算公式为xmmxh加权调和均值:2.调和均值(harmonicmea
n)xnxh1简单调和均值:——适用于未分组数据——适用于已分组数据各组的标志总量各组的变量值统计学STATISTICS2022/11/1340•相对数或平均数再求平均数一定要符合该相对数或平均数本身的计
算公式。•例如:有A、B、C三个企业,A企业计划产量为156吨,计划完成百分比是120%;B企业计划产量为200吨,计划完成百分比为110%;C企业计划产量为145吨,计划完成百分比为90%。求三个企业平均计划完成百分比。相对数或
平均数再求平均数统计学STATISTICS2022/11/1341苹果单价购买量总金额品种(元)(斤)(元)红富士236青香蕉1.859统计学STATISTICS2022/11/1342mxmfxffmx1己知,采用基本平均数公式fm、
己知,采用加权算术平均数公式fx、己知,采用加权调和平均数公式mx、若比值fmx统计学STATISTICS2022/11/1343【例】某季度某工业公司18个工业企业产值计划完成情况如下(按计划完成程度分组):组别企业数(个)计划产值(万元)实
际产值(万元)12342310380025001720044006802375180605060合计182490026175计算该公司该季度的平均计划完成程度。统计学STATISTICS2022/11/1344某
日三种蔬菜的批发成交数据蔬菜名称批发价格(元)x成交额(元)m成交量(公斤)m/x甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例】某蔬菜批发市场三种蔬菜的日成交数据
如表,计算三种蔬菜该日的平均批发价格(元)批发价格成交额成交额769.048000369001mxmxh统计学STATISTICS2022/11/1345•n个变量值乘积的n次方根•适用于对比率数据的平均,而且各比率的乘积
要等于总比率•主要用于计算平均增长率、平均收益率等•计算公式为nniinngxxxxx121简单几何均值:3.几何均值(geometricmean)ffkffgkxxxx...2121加
权几何均值:统计学STATISTICS2022/11/1346【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95﹪、92﹪、90﹪、85﹪、80﹪,求整个流水生产线产品的平均合格率。分析:设最初投产100A个单位,则第一道
工序的合格品为100A×0.95;第二道工序的合格品为(100A×0.95)×0.92;……第五道工序的合格品为(100A×0.95×0.92×0.90×0.85)×0.80;统计学STATISTIC
S2022/11/1347因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为100A×0.95×0.92×0.90×0.85×0.80;则该流水线产品总的合格率为:80.085.090.092.095.0100A80.085.09
0.092.00.95100A总产品总合格品即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。统计学STATISTICS2022/11/1348﹪24.885349.080
.085.090.092.095.055gx解:思考:若上题中不是由五道连续作业的工序组成的流水生产线,而是五个独立作业的车间,且各车间的合格率同前,又假定各车间的产量相等均为100件,求该企业的平均合格率。统计学STAT
ISTICS2022/11/1349【例】某金融机构以复利计息。近12年来的年利率有4年为3﹪,2年为5﹪,2年为8﹪,3年为10﹪,1年为15﹪。求平均年利率。设本金为V,则至各年末的本利和应为:第1年末的本利和为:﹪31V﹪﹪3
131V第2年末的本利和为:………………﹪﹪﹪﹪﹪1511018151313224V第12年末的本利和为:分析:第2年的计息基础第12年的计息基础统计学STATISTICS2022/
11/135015.010.05130.01V15.010.05130.01V2424本金总的本利和则该笔本金12年总的本利率为:即12年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法
。统计学STATISTICS2022/11/1351思考若上题中不是按复利而是按单利计息,且各年的利率与上相同,求平均年利率。﹪﹪平均年利率﹪85.6185.106185.1062154.215.0105.0103.011212424GGxx解:
统计学STATISTICS2022/11/1352是否为比率或速度各个比率或速度的连乘积是否等于总比率或总速度是否为其他比值ffgngxxxx是否否是否是几何平均法fxfxnxx算术平均法
mxmfxffmx1平均的对象均值计算公式的选用顺序统计学STATISTICS2022/11/1353左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值(四)众数、中位数与均值的比较1.众数、中位数和均值的关系统计学STATISTICS2022/11/135
4•众数–不受极端值影响–具有不惟一性–数据多、且分布偏斜程度较大时应用•中位数–不受极端值影响–数据分布偏斜程度较大时应用–主要适合作为顺序数据的集中趋势测度值。•均值–易受极端值影响–数学性质优良–数据对
称分布或接近对称分布时应用2.众数、中位数和均值的特点与应用场合统计学STATISTICS2022/11/1355数据类型分类数据顺序数据数值型数据适用的测度值※众数※中位数※均值—四分位数调和平均数—众数几何平均数——中位数——四分位数——众数数据类型与集中趋势测度值统计学STATISTI
CS2022/11/13560246810121416182015215315415515615715815916016116216316416516616716816917017117217317417502040608010
0120140152153154155156157158159160161162163164165166167168169170171172173174175集中趋势弱、离散趋势强集中趋势强、离散趋势弱cmx164cmx164统计学STA
TISTICS2022/11/1357二、离散趋势的度量(一)异众比率(二)四分位差(三)极差和平均差(四)方差与标准差(五)相对位置的度量(六)离散系数2022/11/13581.数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明了集中趋
势测度值的代表程度4.不同类型的数据有不同的离散程度测度值离中趋势统计学STATISTICS2022/11/13591.对分类数据离散程度的测度2.非众数组的频数占总频数的比率3.计算公式为4.用于衡量众数的代表性fffffvmmr1异众比率(variationrati
o)统计学STATISTICS2022/11/1360解:在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好%70
7.050151501550rv不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100统
计学STATISTICS2022/11/13611.对顺序数据离散程度的测度2.也称为内距或四分间距3.上四分位数与下四分位数之差•qd=qu–ql4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性四分位差(qua
rtiledeviation)统计学STATISTICS2022/11/1362解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5。又已知ql=不满意=2qU=一般=3四分位差:qd=qU-ql=3–2=1甲城市家庭对住房状况评价的频数分布回答类别
甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—统计学STATISTICS2022/11/13631.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4
.未考虑数据的分布7891078910R=max(x)-min(x)5.计算公式为极差(range)统计学STATISTICS2022/11/13641.各变量值与其均值离差绝对值的平均数2.能全面反映一组数据的离散程
度3.数学性质较差,实际中应用较少4.计算公式为nxxmd简单平均差:ffxxmd加权平均差:平均差(meandeviation)统计学STATISTICS2022/11/1365【例】某售货小组5个人,某天的销售额分别为1440元、1480元、15
20元、1600元、1750元,求该售货小组销售额的平均差。元6.93546851558175015581440nxxmd元解:155857790517501600152014801440nxx即该售货小组5
个人销售额与平均数相比,平均相差93.6元统计学STATISTICS2022/11/1366随机抽查4个月的销售量数据平均差计算表按销售量分组组中值(x)频数(f)140—150150—160160—170170—180180—190190—200200—210210—220220—23
0230—24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—2040xxfxx)(171202040台解:ffxxmd即每一天
的销售量与平均数相比,平均相差17台。统计学STATISTICS2022/11/1367方差和标准差(varianceandstandarddeviation)1.数据离散程度的最常用测度值2.反映了各变量值与均值的平均差异3.方差是各变量值与其算术均值离差平方的算术
均值,方差的平方根称为标准差4.平方的方法消除各变量值与算术平均值离差的正负值问题,可方便地用于数学处理和统计分析运算,是真正度量离散趋势的标准5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差统计学STATISTICS2
022/11/1368简单总体标准差:加权总体标准差:简单总体方差:加权总体方差:方差的计算公式标准差的计算公式NX22)(FFX22)(NX2)(FFX2)(总体方差和标准差(Population
varianceandStandarddeviation)统计学STATISTICS2022/11/1369样本方差和标准差(simplevarianceandstandarddeviation)简单样本标准差:加权样本标准差:简
单样本标准差:加权样本标准差:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!1)(22nxxs1)(22nxxs1)(2nxxs1)(2ffxxs统计学STATISTICS2022/11/13701.一组数据中
可以自由取值的数据的个数2.当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5
。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4.在抽样估计中,当用样本方差s2去估计总体方差σ2时,s2是σ2的无偏估计量自由度统计学STATISTICS2022/11/1371【例】某
售货小组5个人,某天的销售额分别为1440元、1480元、1520元、1600元、1750元,求该售货小组销售额的标准差。解:元155857790517501600152014801440X(比较
:其销售额的平均差为93.6元)元62.109560080515581750155814402221NXXNii即该售货小组销售额的标准差为109.62元。统计
学STATISTICS2022/11/1372样本标准差(例题分析)某电脑公司随机抽查4个月的销售量数据标准差计算表按销售量分组组中值(x)频数(f)140—150150—160160—170170—180180—1901
90—200200—210210—220220—230230—24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—
120—554002xxfxx2统计学STATISTICS2022/11/1373)(58.211120554001)(2台ffxxs(比较:其销售量的平均差为17台)即:每一天的销售量与平均数相比,平均相
差21.58台统计学STATISTICS2022/11/1374相对位置的测度—标准化值•1.也称标准分数•2.对某一个值在一组数据中相对位置的度量•3.可用于判断一组数据是否有离群点•4.用于对变量的标准化处理
•5.计算公式为sxxz统计学STATISTICS2022/11/13759个家庭人均月收入标准化值计算表家庭编号人均月收入(元)标准化值z123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5
561.8530.1160.996统计学STATISTICS2022/11/13761.均值等于02.方差等于1001)(1snsxxnnzz1)(1)0()(22222222sssxxnnznznzzsz标准化值的性质统计
学STATISTICS2022/11/1377z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为均值为0、标准差为1的标准化值。统计学STATISTICS2022/11/1378当一组数据
对称分布时:约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内经验法则标准化值在均值正负3个标准差之外的数据,在统计上称为离群点。统计学STATISTICS2022/11/1
379kg500大象kg5.0免子kgX3500大象kgX5.2免子可比离散系数统计学STATISTICS2022/11/13801.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量
单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为xsvs离散系数(coefficientofvariation)统计学STATISTICS2022/11/1381某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039
043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度统计学STATISTICS2022/11/13
82结论:计算结果表明,vs1<vs2,说明产品销售额的离散程度小于销售利润的离散程度vs1=536.25309.19=0.577)(19.309)(25.53611万元万元sxvs2=32.521523.09=0.7
10)(09.23)(5215.3222万元万元sx统计学STATISTICS2022/11/1383数据类型和所适用的离散程度测度值数据类型分类数据顺序数据数值型数据适用的测度值※异众比率※四分位差※方差或标准差—异众比率※离散
系数——平均差——极差——四分位差——异众比率数据类型与离散程度测度值统计学STATISTICS2022/11/1384三、偏态和峰态的度量(一)偏态系数(二)峰态系数统计学STATISTICS2022/11/1385扁平分布尖峰分布偏态峰态左偏分布右偏分布与标
准正态分布比较!偏态与峰态分布的形状统计学STATISTICS2022/11/13861.统计学家Pearson于1895年首次提出2.数据分布偏斜程度的测度3.偏态系数的数值一般在0与±3之间,数值越接近0,分布的偏斜度越小,其绝对值越大,表示
偏斜的程度就越大。4.偏态系数=0为对称分布;偏态系数>0为右偏分布;偏态系数<0为左偏分布5.常用的计算公式:偏态系数(coefficientofskewness)33)(nsfxxsk统计学STATISTICS2022/11/
1387某电脑公司销售量偏态及峰度计算表按销售量份组(台)组中值(x)频数f140—150150—160160—170170—180180—190190—200200—210210—220220—230230—2401451551
65175185195205215225235491627201710845-256000-243000-128000-2700001700080000216000256000625000102400007290000256000027
00000170000160000064800001024000031250000合计—12054000070100000fxx3fxx4统计学STATISTICS2022/11/1388448.0)58.21(120540000)58.
21(120)185()(33333fxnsfxxSK结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数统计学STATISTICS2022/11
/13891.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度3.峰态系数=0扁平峰度适中;峰态系数<0为扁平分布;峰态系数>0为尖峰分布4.常用峰态系数的计算公式:峰态系数(kurtosis)3)(44nsfxxk统计学
STATISTICS2022/11/1390结论:偏态系数为负值,但与0的差异不大,为轻微扁平分布,说明电脑销售量的分布比较分散。306.03694.23)58.21(120701000003)(4414nsfxMKkiii据
前例可计算:统计学STATISTICS2022/11/1391从直方图上观察偏态与峰态结论:1.略为右偏分布2.轻微扁平分布140150210某电脑公司销售量分布的直方图190200180160170252015
10530220230240销售量(台)频数(天)2022/11/1392四、Excel在数据分布特征度量中的应用(一)反映数据分布特征的统计函数(二)“描述统计”工具统计学STATISTICS2022/1
1/1393反映数据分布特征的统计函数•反映数据集中趋势的统计函数MODE(number1,number2,……)MEDIAN(number1,number2,……)QUARTILE(array,quart)AVERAGE(number1,number2,……)HARMEAN(numb
er1,number2,……)GEOMEAN(number1,number2,……)统计学STATISTICS2022/11/1394•反映数据离中趋势的主要统计函数MAX(array)—MIN(array)AVEDEV(number1,number2,……)STDEV
或STDEVP(number1,number2,……)VAR或VARP(number1,number2,……)•反映数据分布形态的统计函数SKEW(number1,number2,……)KURT(number1,number2,……)统计学STATIST
ICS2022/11/1395Excel的“描述统计”工具第1步:打开Excel数据表第2步:选择“工具”下拉菜单中的“数据分析”选项,在分析工具中选择“描述统计”第3步:单击“确定”按钮,弹出“描述统计”对话框第4步,设置描述统计工具的相关参数。在“输入区域”方框内键
入数据区域;在“输出选项”中选择输出区域;选择“汇总统计”;选择“确定”第5步:填完“描述统计”对话框之后,单击“确定”按钮实例计算统计学STATISTICS2022/11/1396•将亚太地区25所知名商学院有
的关情况的数据输入到Excel工作表中,首先利用Excel的统计函数计算录取名额的各种描述统计量,然后利用Excel的“描述统计”工具计算多个变量的各种描述统计量统计学STATISTICS2022/11/139
7统计学STATISTICS2022/11/1398统计学STATISTICS2022/11/1399亚太地区25所知名商学院四个变量的描述统计量结果录取名额本国学生学费($)外国学生学费($)年龄平均165.16平均12374.9平均165
81.8平均28.36标准误差28.16822标准误差1555.68标准误差1826.96标准误差0.75692中位数126中位数11513中位数17765中位数29众数30众数-众数16000众数29标准差140.8411标准差7778.42标准差9134.84
标准差3.78461方差19836.223方差6050387方差8344541方差14.3233峰度-0.75127397峰度0.50614峰度-0.71266峰度-0.26633偏度0.7566129偏度0.62224偏度-0.01168偏度0
.11744区域451区域32060区域32060区域15最小值12最小值1000最小值1000最小值22最大值463最大值33060最大值33060最大值37求和4129求和309373求和414545求和709观测数25观测数25观测数25观测数25统计学ST
ATISTICS2022/11/13100本章小节1.数据集中趋势的度量值——众数、中位数、四分位数、算术均值、调和均值、几何均值。2.数据离散趋势的度量值——异众比率、四分位差、极差、平均差、方差与标准差、离散系数。3.数据分布形态的度量值——偏态系数与峰态系数。4.利用Excel计算
描述统计量