【文档说明】第一章医学统计学基本概念与常用统计描述指标课件.ppt,共(77)页,691.688 KB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-245802.html
以下为本文档部分文字说明:
医学统计学(MedicineStatistics)南京大学医学院范怡梅第一章医学统计学基本概念与常用统计描述指标⚫统计学(statistics):“Thescienceandartofdealingwithvariationindatathroughcollectio
n,classificationandanalysisinsuchawayastoobtainreliableresults.”第一节医学统计学在医学科学中的地位和作用⚫医学统计学(MedicineStatistics)–是应
用概率论和数理统计的基本原理和方法,结合医学实际阐述统计设计的基本原理和步骤,研究资料或信息的收集、整理与分析的一门学科。⚫是统计学在医学上的应用;⚫理论基础是概率论和数理统计;–SPSS•StatisticalPackageforSocialSciences•Stati
sticalProductandServiceSolutions–SAS•StatisticalAnalysisSystem⚫作用;⚫统计工作的步骤。第二节统计工作的步骤⚫研究设计(researchdesign)–调查设计、实验设计⚫资料收集(datacollection)⚫统计分析
(statisticalanalysis)–统计描述(statisticaldescription)–统计推断(statisticalinference)例某医生发明了一种新的治疗某病的疗法(治疗组),用现在公
用的疗法作为对照(对照组),经临床试验,对照组与治疗组的疗效分别为P1=75%与P2=95%,问:能认为这两个有效率之间的差别有显著性意义吗?假设的3批实验结果组别例数有效率(%)疗效:有效无效合计甲实验对照组治疗组乙实验
对照组治疗组丙实验对照组治疗组1519303845575110215320204040606075.095.075.095.075.095.0甲实验中,c2=1.765,P>0.05,两个有效率之间的差别无显著性意义;乙实验中,2=6.275,0.01
<P<0.05,两个有效率之间的差别有显著性意义;丙实验中,2=9.412,P<0.01,两个有效率之间的差别有极显著性意义。第三节统计学中的几个基本概念1.总体与样本(populationandsample)根据研究目的确定的同质观察单位的全体称为总体。从总体中随机抽取、进行研究的一
部分个体所组成的集合,称为样本。要保证样本的可靠性、代表性。2.同质与变异(homogeneityandvariation)统计研究的是有变异的事物,统计分析的任务就是在同质分组的基础上,通过对变异所呈现出来的统计规律性
的研究,透过偶然现象,揭示同质事物的本质特征和规律。3.抽样误差(samplingerror)因抽样产生的样本与样本,样本与总体相应统计指标之间的差异,称为抽样误差。抽样误差的大小主要取决于观察单位间变异程度的大小和样本含量的多少。4.参数和统计量(parameterandstatis
tic)总体的指标统称为参数,样本指标称为统计量。5.概率(probability)概率是描述随机事件发生的可能性大小的数值,常用P表示。随机事件概率的大小在0与1之间,即0P1。习惯上将P0.05,称为小概率事件。6统计资料的类型定量资料分类资料如身
高(cm)、体重(kg)等。无序分类有序分类二项分类多项分类(等级资料)如阳性与阴性、治愈与未愈。如血型为A、B、AB、O型。如治疗结果为治愈、显效、好转、无效四级。第四节数值变量的描述性统计⚫统计图表;⚫统计指标。一、频数分布(frequencydistribution
)(一)编制频数表的步骤⚫求极差–R=84-57=27(次/分)⚫划分组段–确定组数:较大样本时,一般取10组左右。–确定组距:极差/组数=27/10=2.7≈3(次/分)–确定各组段的上下限:上限=下限+组距⚫统计各组
段内的数据频数,编制频数表表2.1130名健康成年男子脉搏(次/分)的频数分布表脉搏组段(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)56~59~62~65~68~71~74~77~80~83~85合计2512152526191510
11301.543.859.2311.5419.2320.0014.6211.547.690.7727193459851041191291301.545.3814.6226.1545.3865.3880.0091.5499.23100.00(二)频数表的用途⚫可以揭示资料的分布类型和分布特征
,以便于选用相应的统计分析方法。⚫便于进一步计算指标和统计处理。⚫便于发现某些特大或特小的可疑值。二、集中趋势(centraltendency)的描述⚫三种平均数(average)–算术均数(arith
meticmean)–几何均数(geometricmean)–中位数(median)(一)算术均数(arithmeticmean,)⚫简称均数,适合于表达呈正态分布资料的平均水平。⚫直接法:⚫⚫例2-2:=81+70+66+···+6913=71.69(次/分)11···niniXXXXnn=+
+==XX⚫加权法:例:=57.52+60.55+63.512+···+84.51130=71.62(次/分)iiifXXf=X(二)几何均数(geometricmean,G)⚫适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。11211lg(lg)nnn
iiGXXXXn−===1lglg()iiifXGf−=例:40名麻疹易感儿童接种麻疹疫苗后一个月,测其血凝抑制抗体滴度,结果如表所示,求几何均数。抗体滴度人数f滴度倒数XlgX1:41:81:161:321:641:1281:
2561:512145811641481632641282565120.60210.90311.20411.50511.80612.10722.40822.709311lg10.602140.903112.7093'lg()lg()40iiifXGf−−+++=
=167.1282lg()4840−==1:48G=(三)中位数(median,M)⚫适合于表达偏态资料、或分布不明的资料的平均水平,尤其适合于表达只知数据的个数、但部分较大或较小数据的具体数值未准确知道的资料的平均水平。对于原始数据和频数分布表资料,分别用下
列两式计算中位数。M=(Xn/2+X(n/2+1))/2(n为偶数)X(n+1)/2(n为奇数)其中,LM:中位数所在组下限;iM:中位数所在组的组距;fM:中位数所在组的频数;fL:中位数所在组前一组的累计频数。()2MMLMinMLff=+−
例2-4表2.3107正常人的尿铅含量(g/L)的中位数计算表含量(g/L)(1)频数f(2)累计频数f(3)累计频率%(4)0~4~8~12~16~20~24~28~合计14222918156121
07143665839810410510713.0833.6460.7577.5791.5997.2098.13100.00M=8+(107/2-36)=10.41(g/L)429三、离散趋势(tenden
cyofdispersion)的描述⚫例:设有三组同年龄、同性别儿童体重(kg)数据如下:⚫甲组2628303234⚫乙组2427303336⚫丙组2629303134⚫描述离散程度的指标:–极差、四分位数间距、方差、标准差及变异系数。(一)极差(全距,
range,R)⚫为一组同质观察值中最大值与最小值之差。⚫甲组R=34-26=8⚫乙组R=36-24=12⚫甲组数据分布较乙组集中。优点:计算简单缺点:1.没有充分利用样本信息,只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度。2.样本含
量越大,抽到较大或较小观察值的可能性越大,则极差可能越大,因此,样本含量悬殊时不宜用极差比较分布的离散度。所以,一般不用极差来反映离散程度。(二)四分位数间距(quartileinterval,Q)1.分位数的概念分位数是一种位置指标,一个特定的分位数将任何一个频数曲线下的面
积分为两部分。第1四分位数记作Q1,第2、第3四分位数,分别记作Q2、Q3;第1百分位数,记作P1。同理,还有第2、第3、···、第99百分位数,分别记作P2、P3、···、P99。显然,Q1=P25、Q2=P50=M、Q3=P7
52.百分位数(percentile)的计算公式对连续型变量频数表资料,按下式计算第X百分位数PX:其中,LX:第X百分位数所在组下限;iX:第X百分位数所在组的组距;fX:第X百分位数所在组的频数;fL:第X百分位数所在组前一组的累计频数。%(%)
pLpiXLnpff=+−例某地200例正常成人血铅含量的频数分布如表所示,请计算出血铅含量的95%正常值范围。200例正常成人血铅含量的频数分布表血铅含量频数累计频数(mol/L)(1)(2)0~0.24~0.48~0.72~0.97
~1.21~1.45~1.69~1.93~2.17~2.42~2.66~2.90~3.14648433628131444120165497133161174188192196197199199200解:即求P95。nX%=200×95%=190故某地正常人血铅含量95%的单侧正常值范围的上限为
1.81(mol/L)。95%0.241.69(190188)4X=+−1.81(/)molL=3.四分位数间距(quartileinterval,Q)Q=P75-P25Q=QU-QL优缺点:用四分位数间距作
为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。例2-10据书中表2.3资料求四分位数间距Q。P25=4+422(10725%14)=6
.32(g/L)P75=12+418(10775%65)=15.39(g/L)Q=P75-P25=15.39-6.32=9.07(g/L)(三)方差(variance)n-1称为自由度221()niiXN=−=22
1()1niiXXSn=−=−(四)标准差(standarddeviation)加权法:21()niiXN=−=2221()()/11niiXXXXnSnn=−−==−−22()/1fXfXfSf−=−(五)变异系数(coefficientofvariation,CV)1.用
于比较度量衡单位不同的多组资料的变异度。2.比较均数相差悬殊的多组资料的变异度。100%SCVX=例某地不同年龄组男子身高(cm)的变异程度年龄组3~3.5岁30~35岁人数100100均数96.1170.2标准差3.15.0
变异系数3.2%2.9%四、正态分布(normaldistribution)(一)正态分布的概念和特征⚫正态分布的图形:正态分布的密度函数:-<X<+通常用N(,2)表示均数为、方差为2的正态分布。22()21()2XfXe
−−=正态分布的特征⚫1.正态曲线在横轴上方均数处最高;⚫2.正态分布以均数为中心,左右对称;⚫3.正态分布有两个参数,即均数与标准差。是位置参数,当固定不变时,越大,曲线沿横轴越向右移动;越小,曲线沿横轴越向左移动。是变异度参数,当
固定不变时,越大,曲线越平阔;越小,曲线越尖峭。⚫4.正态曲线下的面积分布有一定的规律。常用的两个区间:±1.96及±2.58的区间面积分别占总面积(或总观察例数)的95%及99%,如下图所示:95
%2.5%2.5%-1.96+1.9699%-2.58+2.580.5%0.5%(二)标准正态分布(standardizednormaldistribution)⚫令-<u<+用N
(0,1)表示标准正态分布Xu−=221()2uue−=(三)正态分布的应用⚫制定医学参考值范围(medicalreferencerange)⚫许多统计方法的理论基础参考值范围的制定正态分布法百分位数法%
909599单只有下限侧只有上限双侧P5~P95P2.5~P97.5P0.5~P99.5单只有下限P10P5P1侧只有上限P90P95P991.64XS1.96XS2.58XS1.28XS−1.64XS+1.64XS−1.28X
S+2.33XS+2.33XS−例出生体重低于2500克为低体重儿。若由某项研究得某地婴儿出生体重均数为3200克,标准差为350克,估计该地当年低体重儿所占的比例。补充题以下是101名30-49岁正常成年男子的血清总胆固醇(mmol/L)测
定值的频数表,请据此资料:(1)选择适当的集中趋势指标并计算之;(2)选择适当的离散程度指标并计算之;(3)求该地30-49岁健康男子血清总胆固醇的正常值范围;(4)估计该地30-49岁健康男子血清总胆
固醇值小于4.50mmol/L的概率。血清总胆固醇2.5~3.0~3.5~4.0~4.5~5.0~5.5~6.0~6.5~7.0~7.5合计频数f1892325179621101fx2.752633.7597.75118.7589.
2551.7537.513.57.25478.25fx27.5684.50126.56415.44564.06468.56297.56234.3891.1352.562342.31第五节抽样误差与区间估计一、均数的抽样误差与标准误⚫从样本获取有关总体信息的过程称为
统计推断(statisticalinference)。⚫由个体差异产生的,抽样造成的样本与样本、样本与总体相应统计指标之间的差异,称为抽样误差(samplingerror)。标准误(standarderror,SE):样本统计量的标
准差。均数的标准误(SEM,):即样本均数的标准差。样本观测值的标准差与样本均数的标准误的比较:1.标准差与标准误都反映数据的离散性;2.标准差的大小反映各个个体的观测值X之间的变异程度(离散程度),标准误的大小反映各个样本均数间的变异程度(离散程度),也反映了样本
均数代表总体均数的可靠性。XX数理统计推出:1.从正态总体N(,2)中,随机抽取例数为n的样本,样本均数也服从正态分布;即使从偏态总体随机抽样,当n足够大时,也近似正态分布;2.从均数为,标准差为的正态或偏态总体,抽取例数为n的样本,样本均数的总体均数也为,标准差用表示,则可按下式计算
:XXXXXXn=2~(,)XNn2~(,)XNXn=XSSn=二、t分布(一)t分布的概念,即u分布。用S代替,得到t分布2~(,)XN2~(,)XNn2~(0,)XNn
−~(0,1)/XNn−~/XSn−(二)t分布的图形和特征⚫以0为中心,左右对称的单峰分布;⚫t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分
布逐渐逼近u分布;当=时,t分布即为u分布。⚫t分布曲线下总的面积等于1,即t值落入区间(-,)内的概率为1。t值落入任一区间(t1,t2)内的概率等于该区间内曲线和横坐标轴所夹的面积。附表2t界值表通式:单侧:P(t-t,)=,或P(tt,)=双侧:P(
t-t/2,)+P(tt/2,)=图中非阴影部分面积的概率为:P(-t/2,<t<t/2,)=1-三、总体均数的估计⚫参数估计是指用样本指标值估计总体指标值。⚫包括点估计和区间估计。点估计:就是用样本统计量直接作为总体参数的估计值。区间估计:即按预先给定的概率
(1-)确定包含未知总体参数的可能范围。该范围称为参数的可信区间或置信区间,预先给定的概率称为可信度或置信度,常取95%或99%。可信区间的确切含义指的是:有1-的可能认为计算出的可信区间包含了总体参数。总体均数可信区间(confidenceinterval)的计算:1.未知:按t
分布。由于P(-t/2,tt/2,)=1-,/2/2SSXtXtnn−+,,/2/2/XttSn−−,,2.已知或未知但n足够大时:按u分布双侧可信区间为:()或()/2Xun/2SXun均数的可信区间与参考值范围
的区别:1.意义不同均数的可信区间的统计意义:(1)按预先给定的概率,确定的包含总体均数的可能范围,因此它用于估计总体均数。(2)可信度要高,但精度不能下降。参考值范围的统计意义:“正常人”的解剖、生理、生化某项指
标的波动范围,可以用于判断观察对象的某项指标正常与否。2.两者的计算公式有差别:可信区间用了标准误,参考值范围用了标准差。补充题152例麻疹患儿病后血清抗体滴度倒数的分布如下,试作总体几何均数的点值估计和95%区间估计。152例麻疹患儿病后血清抗体滴度倒数的分布滴度倒数1248163264128
2565121024合计人数0017103133422431152第六节SPSS演示⚫DataEditor⚫Viewer⚫SyntaxEditor⚫Script例2.1ViewVariable:ViewData:定义变量名⚫变量名最长不超过64
个字节;⚫首字符必须是字母或汉字,不能以‘_’或‘.’结尾;⚫变量名中不能有空格或某些特殊符号,如‘!’‘?’‘*’;⚫变量名不能与SPSS的关键字相同,如ALL,AND,BY,EQ,GE,GT,LE,LT,NE
,NOT,OR,TO,WITH等;⚫对变量名英文字母的大小写不作区分.Analyze→DescriptiveStatistics→FrequenciesVariable:xStatistics…PercentileValues:Quartiles…CentralTendency:M
ean;Median…Dispersion:Std.deviation…Distribution:Skewness…ContinueCharts…Histogram…ContinueFormat…Orderby:Ascending…ContinueOK频数分布分析:Statist
icsX130071.32.50972.0070a5.80233.659-.139.212-.542.422275784927164.0066.0067.0068.3070.0072.0073.0075.0076.0076.8079.00ValidMissingNMean
Std.ErrorofMeanMedianModeStd.DeviationVarianceSkewnessStd.ErrorofSkewnessKurtosisStd.ErrorofKurtosisRangeMinimumMaximumSum102
0253040506070758090PercentilesMultiplemodesexist.Thesmallestvalueisshowna.X85.082.580.077.575.072.570.067.565.062.560.057.5XFrequency3020100Std.Dev=
5.80Mean=71.3N=130.00One-SampleKolmogorov-SmirnovTest13071.325.802.060.051-.060.689.730NMeanStd.DeviationNormalParametersa,bAbsol
utePositiveNegativeMostExtremeDifferencesKolmogorov-SmirnovZAsymp.Sig.(2-tailed)XTestdistributionisNorma
l.a.Calculatedfromdata.b.正态性检验:Analyze→NonparametricTests→1-SampleKolmogorov-SmirnovTestTestVariableList:xTestDistribution:Normal
OK练习2.2ViewVariable:ViewData:Transform→Compute…TargetVariable:logxMumericExpression:lg10(x)OKData→WeightCases
…WeightCasesby→FrequencyVariable:fOKAnalyze→DescriptiveStatistics→DescriptivesVariable:logxOK可信区间:补充题ViewVariable:ViewData:Transf
orm→Compute…TargetVariable:logxNumericExpression:LG10(x)OKData→WeightCases…WeightCasesby→FrequencyVariable:fOKAnalyze→DescriptiveStatist
ics→Explore…Dependentlist:logxDisplay:StatisticsStatistics…:DescriptivesContinueOK教材:余松林.《医学统计学》.人民卫生出版社,2002.3第1版.参考文献:颜虹.《医学统计学》.人民卫生出版社,20
10.8第2版.陈平雁.《SPSS13.0统计软件应用教程》.人民卫生出版社,2005.9.第1版.