【文档说明】常用医学统计方法胡国清课件.ppt,共(100)页,1.291 MB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-245719.html
以下为本文档部分文字说明:
2023/4/231常用医学统计分析方法基本知识胡国清副教授中南大学公共卫生学院流行病与卫生统计学系2023/4/232一.统计学应用中的常见误区2023/4/233问题1:统计学是数字游戏?▪数字形式仅是表面现象。几个示例▪统计学(Sta
tistics):是一门研究数据的搜集、整理、分析的科学。更主要的是帮助人类探索未知事物规律的工具。▪统计学存在的必要性?2023/4/234几个例子▪2003年湖南省省级计划生育工作的人员总数;▪2003年在湘雅医院出生的新生儿的平均体重;▪2003年中国艾滋病发病率;▪
湖南省65岁以上人群的平均血压;返回2023/4/235三个原因▪人类要了解未知事物的特点或规律;如SARS的病因研究,一些恶性肿瘤的治疗方法探索,一些疾病的预防等等;▪差异或变异在研究总体中存在的普遍性;如全国正常人群的体重、身高、血压测量值等等。数据的表达或描述的难度。▪人、财、物的
限制,不能够调查或检查总体中所有的观察单位,代价太大。2023/4/236留给统计学的问题▪如何简洁地、准确地从一大批杂乱无章的数据中提炼出代表性信息?(统计描述)▪如何合理地由样本的信息(部分信息)推断总体的信息(总体信息)?(统计推断)2023/4/237统计方法的主要应用1.通过种
种手段以最合适的方法搜集数据。2.采用统计指标、统计表、统计图描述数据的规律。3.采用合适的统计方法对数据进行分析,对整个研究的结果下结论。2023/4/238问题2:数据被恰当地表达了吗?1.统计指标的使用准确吗?▪还是?各自使用的条件是什么?▪是万
用通行证吗?▪率与构成比搞清楚了吗?如此计算率合适吗?2.统计表正确吗?3.统计图正确吗?XXSXSXS2023/4/2392023/4/2310▪集中趋势的描述——平均数平均数:描述一组变量值的集中位置或平均水平的指标体系。1.(算术)均数:对称分布,尤其是正态分
布;2.几何均数:对数转换后呈对称分布,尤其是对数正态分布;3.中位数:一般偏态分布;2023/4/2311▪离散趋势描述:描述一组变量值的离散趋势或变异程度的指标体系。1.极差:任何计量资料,是参考变异指标2.四分
位数间距:与中位数配套用3.标准差:与算术均数配套用4.变异系数:描述对称分布(特别是正态分布)资料的相对变异程度。2023/4/2312示例1:率和构成比的区分2023/4/2313示例2:如某种疗法治疗5例病人5例全部治
愈,则计算治愈率为5/5×100%=100%,若4例治愈,则治愈率为4/5×100%=80%,由100%至80%波动幅度较大,但实际上只有1例的变化。2023/4/2314表10-3不同心理分值的冠心病危险因素水平比较2023/4/2315统计图的误导作用直条图的纵轴尺度起点必须为零示意图
2023/4/2316问题3:t检验、卡方检验是万能的吗?▪正态分布、方差齐性的条件满足了吗?▪是t检验还是方差分析;▪是t检验还是U检验?▪是成组t检验还是配对t检验?▪是t检验,还是校正t检验,或者是非参数检验?▪对于计数资料,是通常的卡方检验,还是Yates校正检验,或是精
确概率检验?▪是配对设计,还是成组设计的四格表资料?2023/4/2317误区4:统计检验决定论与统计无用论▪P值一定要小于0.05或者0.01才行吗?▪P值的决定因素您考虑了哪几个?▪统计检验判断结果与专业判断结果相比,哪个更重要?2023/4/23182.数据特征与统计描述基本知识2023/
4/2319计量资料的常用统计指标▪描述集中趋势的特征数(选代表)▪描述离散趋势的特征数(代表程度)▪目的:简单、明了传达信息2023/4/2320表某地150名正常成年男子红细胞数(1012/L)编号红细胞数编号红细胞数13.98……24.541434.6734
.741445.4045.131455.2954.431464.7764.811475.3874.981485.1583.791494.64……1505.19问题:谁能一眼看出下述数据的分布规律?2023/4/2321一、描述集中趋势的特征数(平均指标)总称为平均数(a
verage)反映了资料的集中趋势(centraltendency)。常用的有:1.算术均数(arithmeticmean),简称均数(mean)2.几何均数(geometricmean)3.中位数(median)1.算术均数(mea
n)nXnXXXXn=+++=21112233123kkikifXfXfXfXfXXfffff++++==++++LLX符号:总体样本适用条件:资料呈对称分布,尤其是正态或近似正态。计算:(1)直接法(2)频数表法2023/4/23232.
几何均数(geometricmean)nXXnXXXXnXXXXXGnGnnG−==+++==lglglg)lglg(lg1lg12121适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料。20
23/4/2324几何均数的示例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。100510lg10lg10lg10lg10lglg543211=++++=−G此例的算术
均数为22222问题:描述此类型资料集中趋势时,为什么倾向选用几何均数?2023/4/2325频数表资料的几何均数+++==−−inniiifXfXfXffXfGlglglg
lglglg221111抗体滴度⑴人数,f⑵滴度倒数,X⑶lgX⑷f·lgX⑸1:41:81:161:32┇1:512合计1562┇572481632┇5120.60210.90311.20411.5051┇2.70930.60214.51557.22463.0102┇13
.546572.24712023/4/23263.中位数(median)定义:是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md/M适用条件:适合各种类型的资料。尤其适合于①大
样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。2023/4/2327中位数计算公式先将观察值按从小到大顺序排列,按以下公式计算:()+=++为偶数为奇数nxxnxMdnnn22/12/2/)1(注意:公式中n的含义,数据自小到大排序后的编号。2023/4/23
28频数表资料的中位数mLffniLMdnMd)%50()%50(−+=−+=值间的频数所在组段下限值至上限至该下限值的累计频数组距所在组段下限值下限值L上限值Ui;fm中位数Md)%50(Lfn−2023/4/2329潜伏期/h(1)频数,f(2)累计频数f所占百
分比(3)0~17126~464312~387018~329224~69630~09636~49942~48合计2100145例4-8中位数=12+6x[(145x50%-63)/38]=13.5(h)2023/4/2330小结:集中趋势的描述——平均数平均数:描述一组变量值的集中位置或平
均水平的指标体系。不同的分布使用不同的指标算术)均数:正态或近似正态分布的资料几何均数:对数正态分布或等比级数资料中位数:一般偏态分布2023/4/2331离散趋势的特征数常用指标有:1.极差或全距(Range)2.四分位数间距(
Quartilerange)3.方差(Variance)4.标准差(StandardDeviation)5.变异系数(CoefficientofVariation)考试要点:表示符号、定义、适用条件、区别2023/4/2332盘编号甲乙丙14404
804902460490495350050050045405105055560520510合计250025002500均数500500500例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)420440460480500520540560580
甲乙丙2023/4/23331.极差(Range)(全距)minmaxXXR−=符号:R意义:反映全部变量值的变动范围。优点:简便缺点:只利用了两个观测值适用范围:任何计量资料2023/4/23342.四分位数间距百分位数:数据从小到大排列;在百分尺
度下,所占百分比对应的值。记为Px。四分位间距:Q=P75-P250%20%40%60%80%100%0P100(max)P75P50(中位数)P25P0(min)Px2023/4/2335频数表资料的百分位数mLxxffxniLPxnP)%()%(−
+=−+=值间的频数所在组段下限值至上限至该下限值的累计频数组距所在组段下限值下限值L上限值Ui;fm百分位数Px)%(Lfxn−2023/4/2336P25=6+6x[(145x25%-17)/46]=8.51(h)P75=18+6x[(145x75%-101)/32]=19.45(h)Q
=19.45-8.51=10.94(h)潜伏期/h(1)频数,f(2)累计频数f所占百分比(3)0~17126~464312~387018~329224~69630~09636~49942~48合计210014
52023/4/2337百分位数的应用➢可用多个百分位数描述计量资料的分布特征2023/4/23383.方差方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差
平方和的均值,表示一组数据的平均离散情况。222(sumofsquare)(-)(-)xxSSlXXN===离均差平方和总体方差()11)(2222∑−−−−=nnXXnXXS=样本方差2023/4/2339方差的优点和缺点优点:
利用了所有的观测数值。缺点:容易受极大值或极小值的影响;单位与原观测单位不一致。2023/4/23404.标准差()222()11XXnXXSnn−−=−−样本标准差=标准差(standarddeviation)即方差的正平方根;其单位与
原变量X的单位相同。()122−−=fffXfXS频数表样本标准差2()XXN−=总体标准差2023/4/2341标准差的计算盘编号甲乙丙甲2乙2丙2144048049019360023040024010024604904952116002401002450253500500
50025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500126040012510001250250标准差50.99
15.817.91()99.50155/250012604001222=甲的标准差−−=−−=nnXXS2023/4/23425.变异系数(coefficientofvariation)%100=XSCV适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数标准差变异系
数青年男子身高170cm6cm3.5%体重60kg7kg11.7%意义:挑选指标时变异系数越小,指标越好。2023/4/2343变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,适合于近似正态分布3.变异
系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,组合使用如正态分布:均数、标准差;偏态分布:中位数、四分位半间距2023/4/23442023/4/2345计数资料的常用统计指标一、计数资料的数据整理二、常用相对数指标三、应用注意事项2023/4/2346一、
计数资料的数据整理计数资料/分类资料/定性资料:按某种属性分类,然后清点每类的例数。住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月20258302
5管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产202586129无大学剖宫产足月202460125农民中学顺产足月200038626无小学顺
产足月2023/4/2347二、常用相对数❖绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:1.如甲、乙两个医院某病出院人数不同时,比较两医院该病的死亡人数没有意义2.如2002级
附二院五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。2023/4/23481.率(强度相对数):某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)×比例基数比例基数:100%、1000‰、
10000/万、100000(1/10万)等(按习惯,使结果保留1-2位小数)。频率和速率的区别:分母是否考虑了时间因素(一)率2023/4/2349(二)构成比构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占
的比重或分布,其计算公式为:100%=某一组成部分的观察单位数构成比同一事物各组成部分的观察单位总数问题:频率相对数与构成比有何区别?2023/4/2350❖相对比简称比,是两个有关指标之比,说明两指标间的比例关系。❖计算公式为❖式中指标可以是绝对数、相对数或平均数。(三
)相对比(ratio)ARB=指标指标2023/4/2351三、应用注意事项1.计算相对数的分母不宜过小。2.率与构成比的误用。3.正确求平均率。4.进行率的对比分析时,应注意资料可比性。5.对样本率(或构成比)比较时应做假设检验。2023/4/2352▪问题:
此篇论文作者的结论?2023/4/2353统计图表2023/4/2354➢统计表(statisticaltable)是表达统计分析结果中数据和统计指标的表格形式。➢统计图(statisticalgraph)是用点、线、面等各种几何图形来形象化表达统
计数据。基本概念2023/4/2355统计表的意义与制作原则◼统计表的意义:统计表用简明的表格形式,有条理地罗列数据和统计量,方便阅读、比较和计算。◼制表原则:重点突出、层次清楚。2023/4/2356统计表的基本结构与
要求◼标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。◼标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。2023/4/2357统计表的基本结构与要求◼线条:至少用三
条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。2023/4/2358统计表的基本
结构与要求◼数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。◼备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。2023/4/2359横标目名称纵标目名称合计横标目数据区合计顶线底线表
名标题2023/4/2360表某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)受检人数异常人数检出率(%)血压心率TTTGPT5195195195195544362010.160.486.9
43.85582582582582383923166.526.703.952.75:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。2023/4/2361统计表的种类2023/4/23621.简单表:统计表的主语只有一个层
次例1下表列出某地进行喷昔洛韦软膏治疗颜面单纯疱疹与阿昔洛韦软膏比较的随机对照临床试验结果。该表只有试验分组一个层次,属简单表。组别例数治愈数治愈率(%)治愈天数(SX)试验组1079386.95.71.3对照组10884
77.86.41.2表某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较2023/4/23632.组合表:统计表的主语有两个以层次例2某年某地分别在城乡进行乙型肝炎病毒抗原携带者的检测,该研究的对象按城乡和年
龄两个特征分层,结果列在表10-2。该表属组合表。2023/4/2364表10-2某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析城市乡村年龄组检查数阳性数阳性率(‰)检查数阳性数阳性率(‰)<20423842746.46
9854494.9720~22807620188.85138741248.9425~235879269711.43841413415.9330~146142209314.3256909015.8235~74629129917.4139508120.51402119327312.881499312
0.68合计748303865411.564328150911.762023/4/2365编制统计表的注意事项例3某地进行冠心病危险因素研究时,调查了居民的心理得分值与其它冠心病有关因素,结果列成表10-3。20
23/4/23662023/4/2367上表存在的问题1.将太多的内容放在一个表里,特别是将两种不同类型资料(计量资料和计数资料)的统计量放在同一表中。2.互不相容的内容分别占了不同的列,导致表中有许多空格。3.纵横标目倒置。4.内容较多,层次复杂,表格中数据罗列
无条理,较难读懂。2023/4/2368表4某年某地居民不同心理分值的冠心病危险因素水平比较心理分值例数年龄(岁)收缩压(mmHg)舒张压(mmHg)体力活动体重指数吸烟量(支/天)饮酒量(克/天)受教育程度社会支持125235.26.5120.713.478.
810.22.10.223.13.28160.17.54.50.88.71.2225337.06.3121.213.277.910.52.10.124.03.510278.28
.54.20.97.51.1325236.56.8121.113.278.211.02.10.224.83.115279.36.83.50.87.01.2425337.86.5120.412.878.410.
62.30.325.83.1152106.810.23.40.87.01.2P值-<0.050.50.390.08<0.01<0.001<0.001<0.05<0.05处理办法:将该表资料分别制成两个统计表,见表4和表5。2023/4
/2369表-5某年某地居民不同心理分值的冠心病危险因素水平比较慢性疾患数构成(%)心理分值例数吸烟率(%)饮酒率(%)012125270.852.381.615.13.3225369.455.579.316.24.5325270.753.
177.516.56.0425371.152.873.915.011.12023/4/2370问题1:请评价下表是否符合统计表制作原则,并作改正?2023/4/2371实例分析:下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请指出该表所存在的问题
,并予以纠正。表两个组的疗效观察分型及疗效单纯型慢性支气管炎喘息型慢性支气管炎指标治愈显效好转无效治愈显效好转无效例数6098511223836511合计2091217111疗效%94.694.02023/4/2
372疗效类型例数治愈显效好转无效有效率单纯型2216098511294.6%喘息型1822383651194.0表复方猪胆胶囊治疗两型老年慢性支气管炎患者疗效比较2023/4/2373统计图▪统计图的意义:统计图将统计数据形象化,让读者更易于领会统计资料的核心内
容,易于做分析比较,并且可以给读者留下深刻的印象。2023/4/2374◼统计图的种类:根据资料类型和统计分析目的不同,需要用不同的统计图表达数据和统计指标值。◼常用的统计图:直条图、直方图、百分比条图和圆图、线图、
散点图和统计地图等。2023/4/2375统计图制作的一般原则1.根据资料性质和分析目的正确选用适当的统计图。2.必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题一般放在图的下方。2023/4/23763.
统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。纵横轴的比例一般以5:7或7:5为宜。4.统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。20
23/4/2377二、常用统计图▪1.直条图(barchart)2.圆图(piechart)和百分比条图(percentbarchart)3.线图(linegraph)4.直方图(histogram)5.统计地图(statistica
lmap)6.其他特殊分析图箱式图(boxplot)茎叶图(stem-leafplot)误差条图(errorbarchart)2023/4/23781.直条图(barchart)用相同宽度的直条长短表示相互独立的某统计指标值的大小。直条图按直条是横放还是竖放分卧式和立式
两种,按对象的分组是单层次和两层次分单式和复式两种。2023/4/23792023/4/2380例10-4图10-1显示某地某年主要死因的死亡率资料,不同死因是相互独立的不连续指标,因此用直条图。该图只按死因分类,为单式立式直条图。2023/4/2381某工厂职工1994年99
8年四项生理指标异常检出率图2GPTTTT心率血压检出率(%)12111098765432101994年1998年2023/4/2382直条图的纵轴尺度起点必须为零示意图药物有效率(%)A药70B药752023/4/2383666870727476A药B药有效率01020304050607080
A药B药有效率(a)(b)2023/4/23842.圆图和百分比条图➢圆图(piechart)是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例。➢百分比条图(percent
barchart)是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。➢圆图和百分比条图适合描述分类变量的构成比资料。➢问题:这两类统计图适合于什么类型的资料?尤其适合哪个统计描述指标?2023/4/238520.55.65.222.56.418.121
.7早产先天异常先天心其它颅内出血肺炎出生窒息图10-2某年某地城市婴儿死因构成比2023/4/2386例10-5某年某地进行婴儿死亡原因的调查,根据城市婴儿死因的构成资料绘制成图10-2。从图10-2可见出生窒息是婴儿死亡的首位死因,出生窒息、早产和
肺炎头三位死因占总死亡的60.3%,是婴儿死亡防治的重点。2023/4/2387例10-6图10-3是根据某地20世纪70年代和80年代恶性肿瘤发病登记资料绘制成的百分比条图。由图可见不同年代主要恶性肿瘤中,鼻咽癌和肝癌构成减少,肺癌明显增加。百分比条图特别适合作多个构成比的
比较。2023/4/23880%20%40%60%80%100%70年代80年代肺癌鼻咽癌肝癌胃癌肠癌其它图10-320世纪70年代和80年代某地7常见恶性肿瘤发病构成比较2023/4/23890500010000150002000025000300003
500040000450001999年2000年死亡人数其他骑自行车者摩托车驾驶员行人司机及乘车人图美国1999、2000年死于机动车事故的人员构成2023/4/23903.线图(linegraph)线图是用线段的
升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。普通线图:横轴和纵轴都是算术尺度。半对数线图:横轴是算术尺度,纵轴是对数尺度,特别适宜作不同指标变化速度的比较。2023/4/2391例1
0-7图10-4是根据1990~2000年某沿海城市甲状腺功能亢进(甲亢)发病率资料绘制的普通线图。2023/4/2392图10-41990~2000年某沿海城市甲状腺功能亢进发病率变化趋势2023/4/2393例1
0-8调查某地1997年~2001年两种与性传播有关疾病—艾滋病和梅毒的发病率变化趋势,资料分别绘制成普通线图和半对数线图。2023/4/23940123456719971998199920002001发病率(1/
10万)0.0010.010.111019971998199920002001发病率(1/10万)艾滋病梅毒(a)纵轴为算术尺度;(b)纵轴为对数尺度图10-51997~2001年某地艾滋病和梅毒发病率的变化趋势2023/4/23954.直方图(histogram)以直方面积描述各组频数的多少
,面积的总和相当于各组频数之和,适合表示数值变量的频数分布。直方图的横轴尺度是数值变量值,纵轴是频数。2023/4/2396例10-91997年某地共报告乙型病毒性脑炎104例,其年龄分布如表10-6。2023/4/23
970246810121416036910~25~年龄(岁)每岁病例数图10-61997年某地乙型病毒性脑膜炎病例的年龄分布2023/4/23985.统计地图(statisticalmap)统计地图是用不同的颜色和花纹表示统计量的值在
地理分布上的变化,适宜描述研究指标的地理分布。例10-102003年广东省发生了某急性传染病的流行,图10-7描述了该急性传染病发病数在广东省的分布情况。2023/4/2399图10-72003年广东省某急性传染病发病数的地理分布图例中括号内
是发生相同病例数的行政区频数,其余指数据缺失的行政区2023/4/23100谢谢!