【文档说明】[计算机软件及应用]数据的计量尺度课件.ppt,共(58)页,2.168 MB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-77059.html
以下为本文档部分文字说明:
数据的计量尺度与类型:例子定类尺度定序尺度定距尺度定比尺度精确程度良好1980134公斤中国国籍:健康状况:出生年份:体重:(1)定类尺度(NominalScale)•也称分类尺度•例如:性别、民族、职业•数据表现为“类别”•各类之间无等级次序•
各类别可以用数字代码表示•根据定类尺度得到的数据为分类数据。(2)定序尺度(OrdinalScale)也称顺序尺度例如健康状况、质量等级可对等级、大小等排序未测量出类别之间的准确差值根据定序尺度得到的数据为
顺序数据。(3)定距尺度(IntervalScale)•也称间隔尺度•例如年份、摄氏温度•数据表现为“数值”•可以进行加减运算•“0”是只是尺度上的一个点,不代表“不存在”•根据定距尺度得到的数据为间距数据。(4)定比尺度(RatioScale)•
也称比率尺度•例如体重、身高•数据表现为“数值”•可以进行加减、乘除运算•“0”表示“没有”或“不存在”•根据定比尺度得到的数据为比率数据。四种计量尺度的比较四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度分类(=,≠)排序(<
,>)间距(+,-)比值(×,÷)√√√√√√√√√√计量尺度数学特性四种计量尺度的比较•1、四种尺度所包含的信息量是依次递增的,级别由低到高。•2、根据较高层次的计量尺度可以获得较低层次的计量尺度。•3、不同的尺度数据对应着不
同数据显示方法和分析方法。8/20数据的基本类型数据特性文字性量化性开放性:答案不限定如档案与文件数据、访谈观察记录、开放式语句等如家庭人口数、身高体重、IQ无明确范围的数据封闭性:答案限定以文字形式呈现之限定数据,如性别之男、女限定的尺度,如Likertt
ype问卷题目•问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型,他们的变量的定义和处理的方法各有不同,详细举例介绍如下:9/203.2统计图数据类型定性数据定量数据条形图饼图线图茎叶图箱线图直方图3.2.1线图(LineChart)•利用线形的升降起伏来表
现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。0.010000.020000.030000.040000.050000.060000.070000.080000.019961997199819992000
200120022003定期活期1996年-2003年城乡居民人民币储蓄存款年底余额闹计┦╧SARS發生可能評估1009080706050403020100百分比20100性別男女双变项线形图(延伸线)输出
结果双变项线形图(复线图)输出结果3.2.1线图(LineChart)3.2.2条形图(BarChart)•用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式
等形式。3654616077218090500010000150002000025000300003500040000第一产业第二产业第三产业2003年我国就业人员情况(万人)3.2.3圆形图(PieChart)•也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。
主要用于总体内部的结构,各组成部分所占比例等。第一产业15%第二产业52%第三产业33%2003年我国国内生产总值中各产业比重年齡分組遺漏60歲以上50-59.99歲40-49.99歲35-39.99歲30-34.99歲25-29.99歲20-24.99歲20歲以下3.2.4直方图
(Histogram)•用来反映定量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。•注意对不等距分组:纵轴必须表示为频数密度。–频数密度=频数/组距(面积之和=总频数)•手
工绘制直方图时需要先对数据进行分组;用统计软件spss作直方图时统计软件可以自动进行分组。直方图(等距分组)某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表审计时间(天)频数10-15415-20820-25525-30230-351合计2002468105101520253
03540审计时间(天)频数直方图(不等距分组)某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表审计时间(天)频数频数密度10-1540.815-2081.620-255125-3530.3合计2
0-00.511.52510152025303540审计时间(天)频数密度直方图与条形图的异同•都是用来反映数据的分布状况,适用于不同类型的数据。•条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。•直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或
百分比,宽度则表示各组的组距,其高度与宽度均有意义。•直方图的各矩形通常是连续排列,条形图则是分开排列。•主要用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。•通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。•树叶的竖列要对
齐,以计算各组的次数。原始数据:24,26,24,21,27,27,30,41,32,38从小到大排序后的数据:21,24,24,26,27,27,30,32,38,413028412144677303.2.5茎叶图(Stem
-and-LeafDisplay)茎叶图SPSSStatistics生成的一个茎叶图•40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,2
9,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64Stem-and-LeafPlotFrequencyStem&Leaf9.002.6778889994.003.33448.003.5
556667910.004.00112222333.004.5884.005.01121.005.51.00Extremes(>=64)Stemwidth:10.00Eachleaf:1case(s)•
常用的集中趋势的测度指标:–算术平均数–中位数–众数集中趋势:一组数据向其中心值靠拢的倾向和程度。集中趋势测度:寻找数据水平的代表值或中心值。4.1.1算术平均数(均值,ArithmeticMean)•总体均值常用表示。样本均值常用表示。样本均值的计算公式:–简单平
均数:–加权平均数(分组数据):或__Xxnxxnii1kiikiiiffxx114.1集中趋势的测定算术平均数的性质•1、所有的定量数据都有算术平均数。•2、计算算术平均数时使用了所有数据。•3、一组数只有一个均值。•4、各变量值与均值的离差之和等于零。0)(xx
张村有个张千万,九个邻居穷光蛋;统计平均算资产,个个都是张百万。缺点:易受极端值的影响。•一组数据按大小顺序排列后,处在数列中点位置的数值。•特点:–对一组数据是唯一的。–不受极端值的影响。–主要用于顺序数据,也可用数值型数据,但不能用于分类数据。4.1.2中位数(Median)4.1
集中趋势的测定根据原始数据计算中位数–n为奇数时等于第(n+1)/2个数。–n为偶数时等于第n/2和n/2+1个数的平均值1,2,5,9,11中位数=51,2,5,9,11,18中位数=(5+9)/2=7•一组数据中出现次数最多的变量值。•主要特点:–不受极端值
的影响。–有的数据无众数或有多个众数。–对未分组定量资料很少使用。4.1.3众数(Mode)4.1集中趋势的测定众数的不惟一性众数无众数众数1众数2众数、中位数和算术平均数的关系0__MMxe对称
分布均值=中位数=众数左偏分布均值中位数众数<<0__MMxe右偏分布众数中位数均值<<__0xMMe•反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。常用指标:全距(极差)四分位距方
差和标准差离散系数4.2离散程度的测定三个不同的曲线表示三个不同的总体,其均值相同,但离散趋势不同。•全距也称极差,是一组数据的最大值与最小值之差。–R=最大值—最小值–组距分组数据可根据最高组上限-最低组下限计算。–受极端值的影响。全距=?2,5,6,7,8,9,10,12,15,1
6,204.2.1全距(Range)4.2离散程度的测定7891078910•等于上四分位数与下四分位数之差–反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。–不受极端值的影响。–可以用于衡
量中位数的代表性。13QQIQR2,5,6,7,8,9,10,12,15,16,20Q1=6,Q2=9,Q3=154.2.2四分位距(Inter-QuartileRange)4.2离散程度的测定•方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。–总
体方差和样本方差的符号不同,计算公式也不一样。–是反映定量数据离散程度的最常用的指标。4.2.3方差和标准差4.2离散程度的测定4681012x=8.3方差的计算公式总体方差样本方差未分组数据分组数据NXXNii122)(KiiKiiiffXX1122)(1)(122
nxxsniikiikiiiffxxs11221)(样本方差用(n-1)去除,从数学角度看是因为它是总体方差σ2的无偏估计量。•标准差与其相应的均值之比,表示为百分数。•特点:–反映了相对于均值的相对离散程度;–
可用于比较计量单位不同的数据的离散程度;–计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义。(样本)或(总体)xscvXCV4.2.4离散系数(CoefficientofVariation)4.2离散程度的测定偏态和峰度的类型偏态左偏分布右偏分布正态分布
扁平分布峰态尖峰分布•数据分布的不对称性称作偏态。•偏态系数(SK)是对数据分布的不对称性(偏斜程度)的测度。•偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:3)()2)(1(sxxnnnSKi4.3.
1偏态及其测定(Skewness)4.3分布形态的测定偏态系数的含义左偏分布(也称负偏分布):偏态系数SK<0;偏态系数的绝对值越大,偏斜越严重数据向左边延伸得更多右偏分布(也称正偏分布):偏态系数SK>0;偏态系数的绝对值越大
,偏斜越严重。数据向右边延伸得更多对称分布:偏态系数=0。•峰度:数据分布的扁平或尖峰程度。•峰度系数(K):数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度。•统计软件(如Excel等)中常用以下公式计算)3)(2()1(3)()3)(2)(1()1(24
nnnsxxnnnnnKi4.3.2峰度及其测定(Kurtosis)4.3分布形态的测定峰度系数的含义扁平分布尖峰分布峰度系数K<0,与正态分布相比该分布一般为扁平、瘦尾,肩部较胖。峰度系数K>0,与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦。均值和方差相同的正态分布5
.2.2相关系数的计算相关系数(CoefficientofCorrelation)是用来衡量变量之间相关程度的指标,根据变量的多少和属性可以有多种不同的计算方法。衡量两个定量变量之间线性相关程度的常用指标是皮尔逊(Pearson)
相关系数。通常以ρ表示总体的相关系数,以r表示样本的相关系数。r的取值范围为:-1≤r≤1;r越接近1,X与Y之间的线性关系越好;r=1为完全正相关关系;r=-1为完全负相关关系r=0,两个变量之间不存在线性关系或不相关。一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7
为显著性相关;0.7≤|r|<1为高度线性相关。相关系数r的特征5.2.3相关系数的显著性检验•样本相关系数r受到抽样波动的影响,是一个随机变量。•相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行假设检
验。(1)MultipleR,又称为相关系数,它用来衡量变量x和y之间相关程度的大小。R为0.9968,表示二者之间的关系是强正相关。1.回归统计表实验任务二:使用Excel的分析工具库进行回归R的取值范围为:-1≤R≤1;R越接近
1,X与Y之间的线性关系越好;R=1为完全正相关关系;R=-1为完全负相关关系R=0,两个变量之间不存在线性关系或不相关。一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关。实验任务二:使用Excel的分析工
具库进行回归(2)RSquare(拟合优度系数R2):用来说明用自变量解释因变量变差的程度,以测量对因变量的拟合效果。拟合优度系数为0.9936,表明用自变量可解释因变量变差的99.36%。实验任务二:使用Ex
cel的分析工具库进行回归决定系数的取值•R2的取值范围是[0,1]。•R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。•在一元线性回归中,相关系数r的
平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。•所有的回归程序都会给出R2的值.(3)AdjustedRSquare(调整的拟合优度系数):仅用于多元回归才有意义,它用于衡量加入独立
变量后模型的拟合程度。当有新的独立变量加入后,即使这一变量同因变量之间不相关,未经修正的R2也要增大,修正的R2仅用于比较含有同一个因变量的各种模型。(4)标准误差:又称为标准回归误差或估计标准误差,它用来衡量拟合程度的大小,也用于计算与回归有关的其他统计量,此值
越小,说明拟合程度越好。实验任务二:使用Excel的分析工具库进行回归实验任务二:使用Excel的分析工具库进行回归CompanyLogo•拟合优度–1、决定系数–2、估计标准误差•显著性检验–3、t检验–4、F检验季节指数•乘法模型中的季节成分通过季节指数来反映。•季节指数(季节比率):反映
季节变动的相对数。–1、月(或季)的指数之和等于1200%(或400%)。–2、季节指数离100%越远,季节变动程度越大,数据越远离其趋势值。因子分析•因子分析在一定程度上可被视为主成分分析的深化和拓展。•基本原理是将具有一定相关关系的多个变量综合为数量较少的几个因子,研
究一种具有错综复杂关系的实测指标是如何受少数几个内在的独立因子所支配的。SPSS因子分析操作•6、单击“得分”,选中“保存为变量”,“显示因子得分系数矩阵”,单击“继续”;•其余选项使用默认值。单击“确定”。Displayfactorscorecoeffici
entmatrix因子分析结果分析•除了“外貌”变量外其他变量的共同度都比较高。变量共同度表变量共同度:各变量中所含原始信息能被提取的公共因子所解释的程度。变量的共同度越接近1,说明被变量公共因子解释的程度越
高,因子分析的效果越好。•前4个因子的贡献率为81.49%。旋转之后各因子的方差贡献率可能会发生变化!SPSS因子分析操作贡献率旋转前后的因子载荷矩阵•旋转成分矩阵,每行都有一个较大的值。因子旋转后1234简历格式.
116.830.109-.136外貌.440.151.399.227研究能力.064.128.007.928兴趣爱好.220.245.871-.081自信心.916-.107.163-.065洞察力.863.097.255.002诚信度.2
19-.242.863.001推销能力.910.223.103-.041工作经验.087.851-.055.211工作魄力.800.349.156-.052志向抱负.918.159.100-.041理解能力.811.255.331.14
3潜能.747.326.413.224求职渴望度.440.363.534-.524适应力.383.797.076.084因子含义的解释•第一个因子在外貌、自信心、洞察力、推销能力、工作魄力、志向抱负、理解能力、潜能等变量上有
较大的系数,可以抽象为应聘者主客观工作能力因子;•第二个因子在简历格式、工作经验、适应力变量上有较大的系数,可抽象为应聘者对客观环境的适应力因子;•第三个因子在兴趣爱好、诚信度、求职渴望度变量上有较大的系数,可抽象为应聘
者的兴趣和诚信因子;•第四个因子在研究能力变量上系数较大,可抽象为应聘者的学习能力因子。成分得分系数矩阵•FAC1-1≈-0.099简历格式分+0.016外貌分-0.020学习能力分-0.159兴趣爱好分+0.251自信心分+0.185洞察力分-0.093诚信度分+0.217销售能
力分-0.082工作经验分+0.155工作魄力分+0.228志向抱负分+0.129理解能力分+0.080潜能分-0.026求职渴望度分-0.014适应力分公因子的表达式标准化变量SPSS计算的因子得分•根据因子得分可以对应聘者进行综合评价。•例如可以按照第
一因子进行排序,对应聘者主客观工作能力进行评价。中央财经大学统计学院57小结•主成分分析的基本原理和模型•SPSS主成分分析结果的解释•因子分析的基本原理和模型•SPSS因子分析结果的解释