【文档说明】单因素线性相关-医学指南课件.ppt,共(65)页,1.176 MB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-246891.html
以下为本文档部分文字说明:
单因素线性相关与回归分析临床流行病学应用研究室周罗晶现实世界中许多事物与事物之间存在着联系,统计方法的一个重要目的是探讨事物的数量规律,通过对不同性质的事物进行大量观察,发现某些表面关系不大的事物之间存在的依存关系,并度量这种关系的紧
密程度。然而,多数情况是两事物间虽存在着联系,但其方式不是“决定”,统计学中把这种现象之间在数量上非确定性的对应关系叫做“相关关系”。人们发现这种不太明确的规律以后,为了验证、利用这些规律,人们会进一步试验,筛选出最主要的变量,再进行理论论证,直至形成一种比较稳定的
、可控的操作模式。统计学上,如果发现了某两个变量之间的相关关系,会对这两个变量的一系列观测值进行有效的统计技术处理(回归分析),形成具有一定概率的统计规律。相关关系的种类:➔按相关的方向不同可以分为正相关和负相关➔按相关的形式不同可以分为线性相
关和非线性相关➔按影响因素的数量不同分为单相关、复相关和偏相关➔按照变量关联的密切程度可分为完全相关、不完全相关和完全不相关(无关)➢简单线性相关当一个变量X由小到大,另一个变量Y亦相应地由小到大(或由大到小),两变量
的散点图呈直线趋势,那么这两个变量之间有线性关系。分析这种线性关系的理论和方法,统称为直线相关或线性相关。两变量直线相关的性质和密切程度,用直线相关系数r来描述。相关系数:又称为积差相关系数或积矩相关系数,它表示两个变量之间直
线关系的密切程度和相关方向的统计指标。总体相关系数用符号ρ表示,随机样本相关系数用符号r表示。r取值范围:-1≤r≤1,没有单位。相关系数的计算及意义:相关性质与r值的关系:习惯上,相关系数的绝对值|r|在:0.3以下,称为微弱线性相关;0.3-0.5,称为低度线性相关;0.5-0.
8,称为显著线性相关;0.8以上,称为高度线性相关。r计算公式:()()()()−−−−==22yyxxyyxxlllriiiiyyxxxy()()nxxxxlxx/222−=−=()()()()()nyxxyyyxxl
nyyyylxyyy//222−=−−=−=−=(y的离均差平方和)(x的离均差平方和)(x与y的离均差积和)相关系数假设检验:()()212−−=nrrt,υ=n-2从样本计算的r值,是总体相关系数ρ的估计值,从ρ=0(无直线相关)的总体抽出的样本,
其r不一定为0,因此得到r后必须检验r是否来自ρ=0的总体,以判断两变量间是否存在直线相关关系。可用t检验或直接查r界值表实现。实例讲解实例1.10名20岁男青年身高与前臂长的数据见表1。计算相关系数并对ρ=0进行假设检验;表
110名20岁男青年身高与前臂长身高(cm)170173160155173188178183180165前臂长(cm)45424441475047464943实例讲解1.由原始数据及散点图进行初步分析
(图1)图110名20岁男青年身高与前臂长散点图353739414345474951150160170180190身高(cm)前臂长(cm)实例讲解2、计算相关系数()()()()8227.04.785.962226226104541725785414.78
10454206905.962101725298525785414.45206904545.172298525172522222222====−=−==−=−==−=−========YYXXXYXYYYXXlll
rnYXXYlnYYlnXXlXYYYYXXX,,,,,实例讲解H0:ρ=0,即身高与前臂长间无直线相关关系H1:ρ≠0,即身高与前臂长间有直线相关关系()()09.48227.012108227.021022=−−
=−−=−=nrrsrtr82102=−=−=nα=0.05,查t界值表,得0.002<P<0.005,按α=0.05水准拒绝H0,接受H1,故可认为20岁男青年身高与前臂长呈正直线相关。3、与ρ=0进
行假设检验实例讲解1、建立数据库2、分析操作:2.1绘散点图Graphs——Scatter——Simple——Define:YAxis:前臂长XAxis:身高OKSPSS软件操作过程:身高1901801
70160150前臂长52504846444240散点图:Analyze——Correlate——Bivariate——Variables:身高前臂长CorrelationCoefficients:PearsonOK2.2分析模块操作:
实例讲解身高前臂长PearsonCorrelation10.823Sig.(2-tailed).0.003身高N1010PearsonCorrelation0.8231Sig.(2-tailed)0.003.前臂长N1010身高与前臂长相关分析结果:作直线相关分析时注意事项:1
.在进行相关分析之前,一定要根据专业知识来判断两个变量之间是否存在联系。2.相关可以是因果关系,也可以是伴随关系。3.不能只根据相关系数绝对值的大小来判断相关的密切程度。例如有两个样本相关系数:r1=0.601,υ1=6;r2=0.401,υ2=40.
不能根据r1>r2,就判断r1比r2相关更密切。因为查表,若按同一检验水准0.05,则前者认为无相关而后者有相关,可见正确推断有无相关必须经过假设检验。4.积差相关分析只适用于双变量正态分布资料。不服从双变量正态分布而不宜作积差相关分析。总体分布类型未知。用等级表示
的原始数据。秩相关:又叫等级相关(rankcorrelation),即斯皮尔曼(Spearman)等级相关。是用双变量数量等级顺序作直线相关分析。适用于以下资料:实例讲解某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如下:表
3八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度城市编号12345678肺癌标化死亡率(1/10万)5.6018.5016.2311.4013.808.1318.0012.10苯并(a)芘(μg/100m3)0.05
1.171.050.100.750.500.651.20实例2试检验两者有无相关?实例讲解本题资料不服从双变量正态分布,宜计算等级相关系数。计算过程见下表。肺癌标化死亡率(1/10万)苯并(a)芘城市编号⑴X⑵等级⑶Y⑷等级⑸d⑹=⑶-⑸d2⑺15.6010.05100
218.5081.17711316.2361.05600411.4030.10211513.8050.7550068.1320.503-11718.0070.65439812.1041.208416∑d2=28rs=1-n:总例数d:每
一对值的等级差rs=1-6×28/[8×(82-1)]=0.6667)1(622−nndH0:ρs=0,即肺癌标化死亡率和大气中苯并(a)芘无相关关系H1:ρs≠0,即肺癌标化死亡率和大气中苯并(a)芘有相关关系α=0.05查rs界值表,得0.10
>P>0.05,按α=0.05水准,不拒绝H0,尚不能认为肺癌标化死亡率和大气中的苯并(a)芘有相关关系。实例讲解SPSS软件分析结果:Correlations1.000.667..07188.6671.000.071.88CorrelationCoefficientSig.(2-tai
led)NCorrelationCoefficientSig.(2-tailed)NMORTALBENSpearman'srhoMORTALBEN直线回归线性回归分析是基于最小二乘法原理产生古典统计假设下的最优线性无偏估计。直线回归是回归分析中最基本、最简单的一种,是处理两变量(其中至少一个是随
机变量)间线性依存关系的一种统计方法,即自变量只有一个的情况,故又称简单回归(simpleregression),所得方程叫直线回归方程。若引入回归分析的自变量有两个以上,那么就是多重线性回归分析或多元线性回归分析,所得方程叫多重线性回归方程。“回归”一词的来
历。两变量之间存在直线关系时,通过计算回归方程来描述这两个变量相互依存的数量关系。根据直线回归方程由已知(或易测)变量值,估计未知(或难测)变量值。对总体回归直线作出估计,评价样本回归直线的可信程度。估计正常值范围。用途:简单线性回归方程:=
a+bx^y表1直线回归方程a、b两系数对比ab含义回归直线在Y轴上的截距(intercept)。表示X为零时,Y的平均水平的估计值。回归系数(regressioncoefficient),即直线的斜率。表示X每变化一个单
位时,Y的平均变化量的估计值。系数>0a>0表示直线与纵轴的交点在原点的上方。b>0,表示直线从左下方走向右上方,即Y随X增大而增大。系数<0a<0表示直线与纵轴的交点在原点的下方。b<0,表示直线从左上方走向右下方,即Y随X增大而减小。系数=0a=0表示回归直线
通过原点b=0,表示直线与X轴平行,即Y不随X的变化而变化。计算公式XbYa−=XXXYllXXYYXXb=−−−=2)())((最小二乘法原理,此时估计误差平方和最小。−2^YY(
)()()−−−==2XXYYXXllbxxxyxbya−=直线回归方程的假设检验样本回归系数b的假设检验(1)方差分析;(2)t检验。总回归SS/222SSllllllryyxxxyyyxxxy===决定系数:习惯上
写成,称为确定系数(或决定系数),数值上等于自变量对因变量的贡献率,即用自变量能解释因变量变化的百分之多少。越接近于1,回归拟合分析的效果越好,即价值越大。2r2R2R注意:如果X与Y有回归关系,则一定存在相关关系,但是若存在相关
关系,则不一定存在回归关系。作直线回归分析时的注意事项:1)两变量间的关系必须有实际意义。2)计算直线回归的两变量,若X为选定的,则对应于每个X值的Y值必须服从正态分布,其即Y的均数;若X、Y都是随机变量,则要求X、Y服从双变量正态分布。否则先经变量变换,使资料符合要
求后再进行回归分析。3)用同一资料计算X推算Y,和由Y推算X的两个回归方程,结果不同。因此,要正确选定自变量。若两变量之间有因果关系,应以“因”为X;无法确定时,则以较易测定者或变异较小者为X。4)观察值必须是同质的。如果有两个不同的子群,可能产生实际上不存在的回归,也可
能忽视了确实存在的回归关系。5)回归方程一般只适用于自变量X的原观察数据范围,而且实验条件也应与取得原观察数据的实验条件一致,不能任意外推。实例讲解实例3某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表2。表28只大白鼠的进食量和体重增加量鼠号123
45678进食量(g)800780720867690787934750增量(g)185158130180134167186133求直线回归方程并对回归系数作假设检验。实例讲解1、由原始数据绘制散点图并初步分析(图2)
图2大白鼠的进食量与增加体重散点图1001201401601802006007008009001000进食量(g)增重(g)实例讲解∑X=6328,∑X2=5048814,∑Y=1273,∑Y2=206619,,∑XY=10182632、计算回归系数b和截
距a,求回归方程326.47791261.0125.159261.04336611320113208127363281018263)()(875.405281273206619)(43366863285048814)(222222−=−=−=====−=−==−=−==−
=−=XbYallbnYXXYlnYYlnXXlXXXYXYYYXX回归方程:=-47.326+0.261x^y3、回归系数假设检验:H0:β=0,即进食量与增重之间无直线关系H1:β≠0,
即进食量与增重之间有直线关系α=0.0597.1097905.2954875.4052905.29544336611320875.405222=−=−======回总剩回总SSSSSSllSSlSSXXXYYY变异来源SSυMSF总变异4052
.8757回归2954.90512954.90516.147剩余1097.9706182.995方差分析表实例讲解查F界值表,得P<0.01,按α=0.05水准,拒绝H0,接受H1,可认为大白鼠的进食量与增加体重间有直线关系。实例讲解
t检验:018.4433665276.13261.005276.132897.10972..===−==−=−=XXXYbXYlsbsbtnSSs)()(剩按υ=6,查t界值表,得0.01<P<0.05,按α=0.05水准,拒
绝H0,接受H1,结论同上。本题tF===018.4147.16故可用直线回归方程来描述大白鼠的进食量与增加体重的关系。XbXaY261.0326.47ˆ+−=+=实例讲解4、计算总体回归系数β的95%可信区间上限=0.261-2.447×1
3.5107∕=0.1022下限=0.261+2.447×13.5107∕=0.41984336643366总体回归系数β的95%可信区间:(b-t0.05(n-2)Sb,b+t0.05(n-2)Sb)SPSS软件操作过程:1、建立数据库2、分析操作:2.1绘散点
图Graphs——Scatter——Simple——Define:YAxis:增重XAxis:食量OK食量1000900800700600增重1901801701601501401301202.2分析界面操作:Analyze——Regression——Linear——De
pendent:增重Independent:食量OK回归系数模拟的拟合参数残差统计量因变量标准化预测值预测值预测区间影响统计量实例讲解1001201401601802006007008009001000进食量(g)增重(g)5、绘制回归
直线图3大白鼠的进食量与增加体重回归直线直线相关与回归分析的区别与联系1、区别分析目的及意义:相关分析反映相互关系,而回归反映两变量依存变化的数量关系。资料要求:相关分析是要求两定量变量都是随机变量,分布服从正态分布;而回
归分析是要求作为因变量的变量必须是随机变量,自变量可以是随机变量,也可以是一般变量。统计量的量纲:相关系数r是无量纲的统计量;而斜率b却是有量纲的统计量,其量纲为“因变量的量纲/自变量的量纲”,截距a的量纲与因变量的量纲相同。2、联系符号方向一致:同一资料的相关系数r与斜率b
正负号是一致的。r为正(负)号说明两变量之间的相互关系是同(异)向变化的;b为正(负)号说明自变量每增(减)一个单位,因变量y平均增(减)b个单位。假设检验等价:r的假设检验与b的假设检验均用t检验,t值计算公式不同,但同一资料的值相等。对r和b的假设检验是等价的。相
互关系:r和b可以相互转换。换算公式:xxyyllrb/=yyxxllbr/=用回归解释相关:总回归SS/222SSllllllryyxxxyyyxxxy===