【文档说明】人教版高中数学选择性必修第三册学案:8.2《一元线性回归模型及其应用》第二课时(含解析).doc,共(21)页,404.000 KB,由MTyang资料小铺上传
转载请保留链接:https://www.ichengzhen.cn/view-37624.html
以下为本文档部分文字说明:
第二课时非线性回归模型及其应用课标要求素养要求1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.2.了解非线性回归模型.3.会通过分析残差和利用R2判断回归模型的拟合效果.通过学习回归模型的应用,提升数学运算及数据分析素养.新知探
究在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要运用散点图选择适当的函数模型来拟合观测数据,然后通过适当的变量代换,把非线性问题转化为线性问题,从而确定未知参数,建立相应的线性回归方程.问题具有相关关系的两个变量的线性回归方程为y^=b^x+a^.预测值y^与真实值y
一样吗?预测值y^与真实值y之间误差大了好还是小了好?提示不一定;越小越好.1.残差的概念对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y^称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判
断原始数据中是否存在可疑数据等,这方面工作称为残差分析.2.刻画回归效果的方式(1)残差图法作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.(
2)残差平方和法残差平方和∑ni=1(yi-y^i)2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.(3)利用R2刻画回归效果决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.R2=1-∑ni=1(yi-y^i)
2∑ni=1(yi-y-)2,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.拓展深化[微判断]1.残差平方和越接近0,线性回归模型的拟合效果越好.(√)2.在画两个变量的散点图时,响应变量在x轴
上,解释变量在y轴上.(×)提示在画两个变量的散点图时,响应变量在y轴上,解释变量在x轴上.3.R2越小,线性回归模型的拟合效果越好.(×)提示R2越大,线性回归模型的拟合效果越好.[微训练]1.在残差分析中,残差图的纵坐标为__________.答案残差2.甲、乙、丙、丁四位同学在建立变量x,
y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:甲乙丙丁R20.980.780.500.85哪位同学建立的回归模型拟合效果最好?解R2越大,表示回归模型的拟合效果越好,故甲同学建立的回归模型拟合效果最好.[微思考]在使用经验回归
方程进行预测时,需要注意哪些问题?提示(1)经验回归方程只适用于所研究的样本的总体;(2)所建立的经验回归方程一般都有时效性;(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果好,超出这个范围越远,预报的效果越差;(4)不能期望经验回归方程得
到的预报值就是响应变量的精确值.题型一线性回归分析【例1】已知某种商品的价格x(单位:元/件)与需求量y(单位:件)之间的关系有如下一组数据:x1416182022y1210753求y对x的回归直线方程,并说明回归模型拟合效果的好坏.解x-=15(14+16
+18+20+22)=18,y-=15(12+10+7+5+3)=7.4,∑5i=1x2i=142+162+182+202+222=1660,∑5i=1xiyi=14×12+16×10+18×7+20×5+22×3=
620,所以b^=∑5i=1xiyi-5x-y-∑5i=1x2i-5x-2=620-5×18×7.41660-5×182=-1.15,a^=7.4+1.15×18=28.1,所以所求回归直线方程是y^=-1.15x+28.1.列出残差表:yi-y^i00.3-0.4-0
.10.2yi-y-4.62.6-0.4-2.4-4.4所以∑5i=1(yi-y^i)2=0.3,∑5i=1(yi-y-)2=53.2,R2=1-∑5i=1(yi-y^i)2∑5i=1(yi-y-)2≈0.994,所以回归模型的拟合效果较好.规律
方法(1)解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分
析.(2)刻画回归效果的三种方法①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.②残差平方和法:残差平方和∑ni=1(yi-y^i)2越小,模型的拟合效果越好.③决定系数法:R2
=1-∑ni=1(yi-y^i)2∑ni=1(yi-y-)2越接近1,表明回归的效果越好.【训练1】某地区2011年到2017年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2011201220132014201520162017年份代号t1234567人均纯收
入y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2011年到2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别
为解(1)由所给数据计算得t-=17×(1+2+3+4+5+6+7)=4,y-=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑7i=1(ti-t-)2=9+4+1+0+1+4+9=28,∑7i=1(ti-t-)(yi-y-)=(-3)
×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b^=∑7i=1(ti-t-)(yi-y-)∑7i=1(ti-t-)2=1428=0.5,a^
=y--b^t-=4.3-0.5×4=2.3,所以所求回归方程为y^=0.5t+2.3.(2)由(1)知b^=0.5>0,故2011年到2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2020年的年份代号t=10代入(
1)中的回归方程,得y^=0.5×10+2.3=7.3.故预测该地区2020年农村居民家庭人均纯收入为7.3千元.题型二残差分析与相关指数的应用【例2】假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今
测得5组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;(3)计算各组残差,并计算残差平方和
;(4)求R2,并说明(2)中求出的回归模型的拟合程度.解(1)散点图如下.(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.设回归方程为y^=b^x+a^
,又x-=30.36,y-=43.5,∑5i=1x2i=5101.56,x-y-=1320.66,x-2=921.7296,∑5i=1xiyi=6746.76.则b^=∑5i=1xiyi-5x-y-∑5i=1x2i-5x-2≈0.29,a^=y--b^x-≈34.70.故所求的回归直线方程
为y^=0.29x+34.70.当x=56.7时,y^=0.29×56.7+34.70=51.143.故估计成熟期有效穗为51.143.(3)由y^i=b^xi+a^,可以算得e^i=yi-y^i分别为e^
1=0.35,e^2=0.718,e^3=-0.5,e^4=-2.214,e^5=1.624,残差平方和:∑5i=1e^2i≈8.43.(4)∑5i=1(yi-y-)2=50.18,故R2≈1-8.4350.18≈0.832.所以(2)中求
出的回归模型的效果较好.规律方法(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差e^1,e^2,…,e^n来判断模型拟合的效果
.(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.【训练2】为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如下表:x51015202
530y7.258.128.959.9010.911.8(1)作出散点图并求回归直线方程;(2)求出R2并说明回归模型拟合的程度;(3)进行残差分析.解(1)散点图如图所示.样本点分布在一条直线附近,
y与x具有线性相关关系.由表中数据,得x-=16×(5+10+15+20+25+30)=17.5,y-=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑6i=1x2i=2275,∑6i=1
xiyi=1076.2.计算得b^≈0.183,a^≈6.285.故所求回归直线方程为y^=6.285+0.183x.(2)列表如下:yi-y^i0.050.005-0.08-0.0450.040.025yi-y--2.237-1.367-0.5370.4131.4132.313可得∑6i=1(
yi-y^i)2≈0.01318,∑6i=1(yi-y-)2≈14.6783.所以R2=1-0.0131814.6783≈0.9991,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候
是否有人为的错误,如果有的话,需要纠正错误,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量成线性关系.题型三非线性回归分析【例3】某公
司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x-y-w-∑8i=1(xi-x-)2∑8i=1(wi-w-)
2∑8i=1(xi-x-)·(yi-y-)∑8i=1(wi-w-)·(yi-y-)46.65636.8289.81.61469108.8表中wi=xi,w-=18∑8i=1wi.(1)根据散点图判断,y=a+bx与y=c
+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x
=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v^=α^+β^u的斜率和截距的最小二乘估计分别为β^=∑ni=1(ui-u-)(
vi-v-)∑ni=1(ui-u-)2,a^=v--β^u-.解(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.由于d^=∑8i=1(wi-w-)(yi-y-)∑8i=1(wi-w-)2=108.81.6=68,c
^=y--d^w-=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6
849=576.6(t),年利润z的预报值z^=576.6×0.2-49=66.32(千元).②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得
最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(
4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.【训练3】下表为收集到的一组数据:x21232527293235y711212466115325(1)作出x与y的散点图,并猜测x与y之间的关
系;(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.解(1)作出散点图如下图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1ec2x的周围,其中c1,c2为待定的参数.(2)对y=c1ec2x两边取对数
,得lny=lnc1+c2x,令z=lny,则有变换后的样本点应分布在直线z=bx+a(a=lnc1,b=c2)的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为x21232527293235z1
.9462.3983.0453.1784.1904.7455.784求得回归直线方程为z^=0.272x-3.849,∴y^=e0.272x-3.849.残差yi711212466115325y^i6.44311.10119.12532
.95056.770128.381290.325e^i0.557-0.1011.875-8.9509.23-13.38134.675(3)当x=40时,y^=e0.272×40-3.849≈1131.一、素养落地1.通过本节课的学
习,进一步提升数学运算及数据分析素养.2.当根据给定的样本数据得到的散点图并不是分布在一条直线附近时,就不能直接求其回归直线方程了,这时可根据得到的散点图,选择一种拟合得最好的函数,常见的函数有幂函数、指数函数、对数函数等,然后进行变量置换,将问题转化为线性回归分
析问题.二、素养训练1.下列两个变量之间的关系不是函数关系的是()A.角度和它的余弦值B.正方形的边长和面积C.正n边形的边数和内角度数和D.人的年龄和身高解析函数关系就是变量之间的一种确定性关系.A,B,C三项中的两个变量之间都是函数关系,可以写
出相应的函数表达式,分别为f(θ)=cosθ,g(a)=a2,h(n)=(n-2)π.D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选D.答案D2.(多选题)关于残差图的描述正确的是()A.残差图的横坐标可以是样本编号B.残差图的横坐标也可以是解释变量或预报变量C
.残差点分布的带状区域的宽度越窄相关指数越小D.残差点分布的带状区域的宽度越窄残差平方和越小解析残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,R2的值越大,故描述错误的是C.答
案ABD3.某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:x16171819y50344131由上表可得回归直线方程y^=b^x+a^中的b^=-5,据此模型预测当零售价为14.5元时,每天的销售量为()A.51个B.50个C.54个D.48个解析
由题意知x-=17.5,y-=39,代入回归直线方程得a^=126.5,126.5-14.5×5=54,故选C.答案C4.在研究硝酸钠的溶解度时,观察它在不同温度(x)的水中溶解度(y)的结果如下表:温度x0102
05070溶解度y66.776.085.0112.3128.0由此得到回归直线的斜率是__________.解析x-=15(0+10+20+50+70)=30,y-=15(66.7+76.0+85.0+112.3+128.0)=93.6,由公式b^=∑5i=
1(xi-x-)(yi-y-)∑5i=1(xi-x-)2可得b^≈0.8809.答案0.88095.在一次抽样调查中测得样本的5个样本点,数值如下表:x0.250.5124y1612521试建立y与x之间的回归方程.解由数值表可作散点图如图,根据散点图可知y与
x近似地呈反比例函数关系,设y^=kx,令t=1x,则y^=kt,原数据变为:t4210.50.25y1612521由置换后的数值表作散点图如下:由散点图可以看出y与t呈近似的线性相关关系,列表如下:Itiyitiyit2
i1416641622122443155140.5210.2550.2510.250.0625∑7.753694.2521.3125所以t-=1.55,y-=7.2.所以b^=∑5i=1tiyi-5t-y-∑5i=1t2i-5t-2≈4.1344,a^=y--b^t
-≈0.8.所以y^=4.1344t+0.8.所以y与x之间的回归方程是y^=4.1344x+0.8.基础达标一、选择题1.已知某地财政收入x与支出y满足回归方程y^=b^x+a^+ei(单位:亿元)(i=1,2,…),其中b^=0.8,a^=2,
|ei|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过()A.10亿元B.9亿元C.10.5亿元D.9.5亿元解析y^=0.8×10+2+ei=10+ei,∵|ei|<0.5,∴9.5<y^<10.5.答案C2.对变量x,y进行回归分析时,依据得到的4个不同的回归模型
画出残差图,则下列模型拟合精度最高的是()解析用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.答案A3.在回归分析中,R2的值越大,说明残差平方和()A.越大B.越小C.可能大也可能小D.以上
均错解析因为R2=1-∑ni=1(yi-y^i)2∑ni=1(yi-y-)2,所以当R2越大时,∑ni=1(yi-y^i)2越小,即残差平方和越小.答案B4.若一函数模型为y=sin2α+2sinα+1
,为将y转化为t的回归直线方程,则需作变换t等于()A.sin2αB.(sinα+1)2C.sinα+122D.以上都不对解析因为y是关于t的回归直线方程,实际上即y是关于t的一次函数,又因为y=(sinα+1)2,若令t=(sinα+1)2
,则可得y与t的函数关系式为y=t,此时变量y与变量t是线性相关关系.答案B5.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和∑ni=1(yi-y^i)2如下表:甲乙丙丁散点图残差平方和115106124103哪位同学的试验结果体现拟合A,B两变量关系的模型拟合
精度高()A.甲B.乙C.丙D.丁解析根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中∑ni=1(yi-y-)2为确定的数,则残差平方和越小,R2越大),由
回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.答案D二、填空题6.某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:x24568y3040605070已知y关于x的线性回归方程为y^=6.5x+17.5,则当广告支出费用为5万元时,残差为___
_______万元.解析当x=5时,y^=6.5×5+17.5=50,表格中对应y=60,于是残差为60-50=10(万元).答案107.某商场为了了解某品牌羽绒服的月销售量(单位:件)与月平均气温x(单位:℃)之间的关系,随
机统计了某4个月的月销售量与当月平均气温,数据如下表:月平均气温x/℃171382月销售量y/件24334055由表中数据算出线性回归方程y^=b^x+a^中的b^≈-2.气象部门预测下个月的平均气温约为
6℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________.解析由表格中数据可得x-=17+13+8+24=10,y-=24+33+40+554=38.又∵b^≈-2,∴a^=y--b^x-≈38+2×10=5
8,∴y^=-2x+58.当x=6时,y^=-2×6+58=46.答案468.在研究气温和热茶销售杯数的关系时,若求得决定系数R2≈0.85,则表明气温解释了__________的热茶销售杯数变化,而随机误差贡献了剩余的__________,所以气温对热茶销售杯数的效应比随机误差的效应
大得多.解析由决定系数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.答案85%15%三、解答题9.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得∑10i=1xi=80,∑10i=1yi=20,
∑10i=1xiyi=184,∑10i=1x2i=720.(1)求家庭的月储蓄y关于月收入x的线性回归方程y^=b^x+a^;(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.解(1)由题意知
n=10,x-=1n∑10i=1xi=110×80=8,y-=1n∑10i=1yi=110×20=2,所以b^=∑10i=1xiyi-nx-y-∑10i=1x2i-nx-2=184-10×8×2720-10×82=2480=
0.3,a^=y--b^x-=2-0.3×8=-0.4,故所求线性回归方程为y^=0.3x-0.4.(2)将x=7代入回归方程,可以预测家庭的月储蓄约为y^=0.3×7-0.4=1.7(千元).10.为了研究甲型H1N1中的某种细菌随时间x变化的繁殖个数y,收集数据如下:天数x123456繁殖
个数y612254995190求y对x的回归方程.解作出散点图如图(1)所示.由散点图看出样本点分布在一条指数型曲线y=cebx的周围,则lny=bx+lnc.令z=lny,a=lnc,则z=bx+a.
x123456z1.792.483.223.894.555.25相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.由表中数据得到线性回归方程为z^=0.69x+1.11
2.因此细菌的繁殖个数对温度的非线性回归方程为y^=e0.69x+1.112.能力提升11.若对于变量x,y的10组统计数据的回归模型中,计算R2=0.95,又知残差平方和为120.55,那么∑10i=1(yi-y-)2的值为()A
.241.1B.245.1C.2411D.2451解析由题意知残差平方和∑10i=1(yi-y^i)2=120.55,又R2=1-∑10i=1(yi-y^i)2∑10i=1(yi-y-)2=0.95,所以∑10i=1(yi-y-)2=2411.答案C12.某电容器充电后,电压达到
100V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示,现测得时间t(s)时的电压U(V)如下表:t/s012345678910U/V100755540302015101055试求:电压U对时间t的回归方程(提示对公式两
边取自然对数,把问题转化为线性回归分析问题).解对U=Aebt两边取对数得lnU=lnA+bt,令y=lnU,a=lnA,x=t,则y=a+bx,y与x的对应数据如下表:x012345678910y4.64.34.03.73.43.02.72.32.31.61.6根据表中数据画出散点
图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,由表中数据求得x-=5,y-≈3.045,由公式计算得b^≈-0.313,a^=y--b^x-=4.61,所以y对x的线性回归方程为y^=-0.313x+4.61
.所以lnU^=-0.313t+4.61,即U^=e-0.313t+4.61=e-0.313t·e4.61,因此电压U对时间t的回归方程为U^=e-0.313t·e4.61.创新猜想13.(多选题)如图四个散点图
中,适合用线性回归模型拟合其中两个变量关系的是()A.①B.②C.③D.④解析由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型.答案AC14.(多选题)下列说法正确的是()A.残差的绝对值越小,回归方程的拟合效果越好B.残差平方和越
小,决定系数R2越大C.决定系数R2可以大于1D.通过经验回归方程得到的预报值是响应变量的可能取值的平均值,不一定是响应变量的精确值解析R2的计算公式,知B正确,C错误;A,D均正确.答案ABD