【文档说明】高考数学(理数)一轮复习学案11.3《变量间的相关关系与统计案例》(含详解).doc,共(15)页,720.500 KB,由MTyang资料小铺上传
转载请保留链接:https://www.ichengzhen.cn/view-24298.html
以下为本文档部分文字说明:
111.3变量间的相关关系与统计案例1.变量间的相关关系常见的两变量之间的关系有两类:一类是确定性的函数关系,另一类是________;与函数关系不同,相关关系是一种________关系,带有随机性.2.两个变量的线性相关(1)如果散点图中点的分布从整体上
看大致在一条直线附近,我们就称这两个变量之间具有____________,这条直线叫________.(2)从散点图上看,如果点分布在从左下角到右上角的区域内,那么两个变量的这种相关关系称为________;如果点分布在从左上角到右下角的区域内,那么两个变量的这种相关关系称为______
__.(3)相关系数r=njjniiniiiyyxxyyxx12121)()())((当r>0时,表示两个变量正相关;当r<0时,表示两个变量负相关.r的绝对值越接近________,表示两个变量的线性相
关性越强;r的绝对值越接近________,表示两个变量的线性相关性越弱.通常当r的绝对值大于0.75时,认为两个变量具有很强的线性相关关系.3.回归直线方程(1)通过求Q(α,β)=niixy12i)(的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距
离的平方和最小的方法叫做.该式取最小值时的α,β的值即分别为aˆ,bˆ.(2)两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),„,(xn,yn),其回归方程为axbyˆˆˆ,则
.xbyaxnxyxnyxxxyyxxbniiniiiniiniiiˆˆ,)())((ˆ1221121其中x=11niixn,y=11niiyn,____________称为样本点的中心.4.回归分析(1)回归分
析是对具有相关关系的两个变量进行统计分析的一种常用方法.(2)线性回归模型用y=bx+a+e表示,其中a和b为模型的未知参数,e称为____________.它的均值满足E(e)=__________,D(e)=σ2,σ2越小,精度越________.(3)残差:ieˆ=称为相应于点(i
x,iy)的残差,残差平方和为.(4)相关指数R2=.R2越大,说明残差平方和,即模型的拟合效果;R2越小,残差平方和,即模型的拟合效果.在线性回归模型中,R2表示解释变量对于预报变量变化的,R2越接近于1,表示回归的效果.5.独立性检验(1)变量的不同“值”表示个体所属的不同类别,像这样的变量
称为___________.(2)像下表所示列出两个分类变量的频数表,称为___________.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1
y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=___________,其中n=a+b+c+d为样本容量.如果K2的观测值k≥k0,就认为“两个分类变量之间有关系”
;否则就认为“两个分类变量之间没有关系”.我们称这样的k0为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过P(K2≥k0).上面这种利用随
机变量K2来判断“两个分类变量有关系”的方法称为___________.自查自纠:1.相关关系非确定性2.(1)线性相关关系回归直线2(2)正相关负相关(3)103.(1)最小二乘法(2)(x,y)4.(2)随机误差0高(3)iiyyˆ
niiiyy12)ˆ((4)1-niiniiiyyyy1212)()ˆ(越小越好越大越差贡献率越好5.(1)分类变量(2)列联表n(ad-bc)2(a+b)(c+d)(a+c)(b+d)独立性检验(2017春·定州校级期末)在下列由x,y两个变量数据绘制成的散点图中,相关关系最强
的是()解:对于A,图中各点成带状分布,这组变量具有较强的线性相关关系.对于B、C、D,散点图中样本点成片状分布,所以两个变量的线性相关关系相对较弱些.故选A.(2018春·石家庄期末)某校学生会为了调查学生对2018年俄罗斯世
界杯的关注是否与性别有关,抽样调查了100人,得到如下数据.不关注关注总计男生301545女生451055总计7525100根据表中数据,通过计算统计量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),并参考以下临界数值
:P(K2≥k0)0.150.100.050.0250.010k02.0722.7063.8415.0246.635若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过()A.0.10B.0.05C.0
.025D.0.01解:根据表中数据,计算统计量K2=100×(30×10-45×15)275×25×45×55≈3.03>2.706,参考临界数据知,认为“学生对2018年俄罗斯世界杯的关注与性别有关”,此
结论出错的概率不超过0.10.故选A.(2017春·三明期末)已知四个命题:①在回归分析中,R2可以用来刻画回归效果,R2的值越大,模型的拟合效果越好;②在独立性检验中,随机变量K2的值越大,说明两个分类
变量有关系的可能性越大;③在回归方程ˆy=0.2x+12中,当解释变量x每增加1个单位时,预报变量y^平均增加1个单位;④两个随机变量相关性越弱,则相关系数的绝对值越接近于1.其中真命题是()A.①④B.②④C.①②D.②③解:①相关指数R2表示解释变量对预报变量的
贡献率,R2的值越大,说明回归模型的拟合效果越好,故①正确.②由K2的计算公式可知,对分类变量X与Y的随机变量K2的观测值k来说,k越小,判断“X与Y有关系”的把握越小,随机变量K2的值越大,说明两个分类变量有关系的可能性越大,故②正确.③在回归直线方程ˆy=
0.2x+12中,当解释变量x每增加1个单位时,预报变量ˆy平均增加0.2个单位,故③错误.④两个随机变量相关性越强,则相关系数的绝对值越接近于1;两个随机变量相关性越弱,则相关系数的绝对值越接近于0,故④不正确.故选C.(2017·山东
)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班3随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为ˆˆˆybxa.已知101iix
=225,101iiy=1600,bˆ=4.该班某学生的脚长为24,据此估计其身高为________厘米.解:由已知得x=22.5,y=160,则aˆ=160-4×22.5=70,当x=24时,yˆ=4×24+70=166,故
填166.(齐齐哈尔2017-2018学年高二下期末)某工厂为研究某种产品产量x(吨)与所需某种原材料y(吨)的相关性,在生产过程中收集4组对应数据(x,y)如下表所示.(残差=真实值-预测值)x3456y2.534m根
据表中数据,得出y关于x的线性回归方程为:ˆy=0.7x+a.据此计算出在样本(4,3)处的残差为-0.15,则表中m的值为________.解:由题意可得ˆy=3.15,则在(4,3)处3.15=0.7×4+a,所
以a=0.35.产量x的平均值x=14(3+4+5+6)=4.5,则y=0.7x+0.35,即14(9.5+m)=0.7×4.5+0.35,解得m=4.5.故填4.5.类型一相关关系的判断下列变量间的关系,是相关关系的为()①
正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③商品销售收入与其广告费支出之间的关系;④人体内的脂肪含量与年龄之间的关系.A.①②③B.②③④C.①②④D.①③④解:①由正方体的棱长和体积的公式可知,正方体的体积等于棱长的立方,所以①是确定的函数关
系(此时可排除A、C、D,选B).易知②③④中变量间的关系均为不确定的相关关系.故选B.点拨:要注意函数关系与相关关系的区别:函数关系是确定性关系,而相关关系是随机的、不确定的.(2018春·红岗校级月考
)儿子的身高和父亲的身高是()A.确定性关系B.相关关系C.函数关系D.无任何关系解:由于儿子的身高和父亲的身高是不确定的关系,所以是相关关系.故选B.(2018春·镇安校级期中)下列说法中正确的是________.(填序号)①相关
关系是一种确定性关系;②变量间的线性相关系数r的取值范围为[-1,1];③变量间的线性相关系数r的绝对值越近接0,则变量间的线性相关程度越低;④相关系数r与回归系数始终同号.解:根据题意,依次分析四个
说法:对于①,在回归分析中,变量间的相关关系非函数关系,是一种不确定的关系,①错误;对于②,相关系数r满足|r|≤1,②正确;对于③,根据相关系数的性质:|r|≤1,且|r|越接近1,相关程度越大;|r|越接近0,相关程度越小,③正确;对于④,由r
与b的计算公式知相关系数r与回归系数始终同号,④正确.故填②③④.点拨:用相关系数r可以衡量两个变量之间的相关关系的强弱,r的绝对值越接近于1,表示两个变量的线性相关性越强,且r的正负即表示两个变量相关性的正负.相关系数的取值范围是[-1,1].(2016·全国卷Ⅲ改编)下图是我国2008年至20
14年生活垃圾无害化处理量(单位:亿吨)的折线图.4注:年份代码1~7分别对应年份2008~2014.由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明.附注:参考数据:71iiy=9.
32,71iiity=40.17,71iiyy2(-)=0.55,7≈2.646.参考公式:相关系数r=12211()()()()niiinniiijttyyttyy.解:由折线图中数据和附注中参考数据得t=4,7
1iitt2(-)=28,71iiyy2(-)=0.55,777111iiiiiiiittyytyty()()==40.17-4×9.32=2.89,r≈2.890.55×2×
2.646≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.类型二散点图(2018·四川模拟)某中学的兴趣小组在某座山上测得海拔高度(km)、气压(kPa)和沸点(℃)
的六组数据绘制成的散点图如图所示,则下列说法错误的是()A.沸点与海拔高度呈正相关B.沸点与气压呈正相关C.沸点与海拔高度呈负相关D.沸点与海拔高度、沸点与气压的相关性都很强解:由图1知气压随海拔高度的增加而减小,
由图2知沸点随气压的升高而升高,所以沸点与气压呈正相关,B正确;沸点与海拔高度呈负相关,C正确,A错误;由于两个散点图中的点都成线性分布,所以沸点与海拔高度、沸点与气压的相关性都很强,D正确.故选A.点拨:除了相关系数外,散点图也可以判断两个变量的相关关系.点分布在从左下
角到右上角的区域时,两个变量呈现正相关;点分布在从左上角到右下角的区域时,两个变量呈负相关.(2017·红桥模拟)某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理分数对应如下表.学生编号12345678数学分数x606570758085
9095物理分数y7277808488909395绘出散点图如下.5根据以上信息,判断下列结论:①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;③甲同学数学考了80分,那么,他的物理成绩一定比数学只考
了60分的乙同学的物理成绩要高.其中正确的个数为()A.0B.1C.2D.3解:对于①,根据此散点图知,各点都分布在一条直线附近,可以判断数学成绩与物理成绩具有较强的线性相关关系,①正确;对于②,根据此散点图,可以判断数学成绩与物理成绩具有较强的线性相关关系,不是一次函数关系,②错误;对于③
,甲同学数学考了80分,他的物理成绩可能比数学只考了60分的乙同学的物理成绩低,所以③错误.综上,正确的结论是①,只有1个.故选B.类型三线性回归方程(2018·湖南三模)已知变量x,y之间的线性回归方程为ˆy=-0.
7x+10.3,且变量x,y之间的一组相关数据如表所示,则下列说法错误的是()x681012y6m32A.变量x,y之间呈现负相关关系B.可以预测,当x=20时,y=-3.7C.m=4D.由表格数据可知,该回归直线必过点(9,4)解:对于A:根据b的正负即可判断正负相关关系,b=-0.7<
0,负相关.对于B,当x=20时,代入可得y=-3.7.对于C,根据表中数据:x=14(6+8+10+12)=9,可得y=-0.7×9+10.3=4,即14(6+m+3+2)=4,解得m=5.对于D,线性回归方程一定过点(x,y),即(9,4).故选C.点拨:回归方程一定
通过样本点的中心(x,y);中心相同的样本点的回归方程不一定相同.(2018·济南外国语学校高二下期末改编)如果在一次试验中,测得(x,y)的四组数值分别是A(1,3),B(2,3.8),C(3,5.2),D(4,6),则y与x之间的回归直线方程可能为()A.ˆ
y=-x+7B.ˆy=1.04x+1.9C.ˆy=1.9x+1.04D.ˆy=1.05x-0.9解:因为x=1+2+3+44=2.5,y=3+3.8+5.2+64=4.5,所以这组数据的样本中心点是(2.5,4.5),又x与y呈正相关,
所以只有B符合.故选B.(2018·德阳模拟)某商家欲将购进的一批成本价为4元/件的商品卖出,为了对这种产品制定合理售价,将该产品按事先拟定的价格进行试销,得到如下6组数据.单价x/元88.28.48.68.89销量y/件90848380
7568(1)若90≤x+y<100,就说产品“定价合理”,现从这6组数据中任意抽取2组数据,求这2组数据均为“定价合理”的概率;(2)求出y关于x的线性回归方程ˆy=ˆbx+ˆa,预计在今后的销售中,销量与单价仍服从此关系,为了获得最大利润,该产品的销售单价应定为多少元
?(利润=销售收入-成本,精确到0.1元)参考公式:6ˆb=121()()()niiiniixxyyxx=1221niiiniixynxyxnx,ˆa=y-ˆbx.解:(1)从这6组数据
中任意抽取2组数据有15种情况,“定价合理”的有:8+90=98,8.2+84=92.2,8.4+83=91.4,从中任取2组有3种情况,则所求概率P=315=15.(2)因为x=8.5,y=80,21()niix
x=0.7,21()()niiixxyy=-14,则ˆb=-140.7=-20,ˆa=y-ˆbx=250.则y关于x的线性回归方程是y=-20x+250,利润函数L(x)=x(-20x+250)-4(-20x+250)=-20x2+330x-1000,当x=-
3302×(-20)=8.25时,L(x)取得最大值361.25,故当单价定为8.2元或8.3元时,可获得最大利润.点拨:牢记求线性回归方程的步骤:第一步,列表;第二步,计算x,y,1niiixy,21niix
或1()()niiixxyy,21()niixx;第三步,代入公式求ˆb,再利用ˆa=y-ˆbx求ˆa;第四步,写出回归方程.(2017重庆高三学业质量调研)某科技兴趣小组对昼夜温差的大小与小麦新品种发芽多少之间的关系进行了研究,记录了2017年12月1日至12月5日五天
的昼夜温差与相应每天100颗种子的发芽数得到了如下数据:日期12月1日12月2日12月3日12月4日12月5日温差x(℃)911101213发芽数y(颗)2134263640现从这5组数据中任选两组,用余下的三组数据求回归直线方程,再对被选取的两组数据进行检验.(1)求选取的两组数据恰好是不
相邻的两天的概率;(2)若选取的是12月1日和12月5日的两组数据,请根据余下的三组数据,求出y与x的回归直线方程y^=b^x+a^;(3)若由回归直线方程得到的估计值与所选出的两组实际数据的误差均不超过两颗,则认为得到的回归直线方程是可靠的,试判断(2
)中得到的回归直线方程是否可靠.附:在回归方程y^=b^x+中,b^=1221niiiniixynxyxnx.解:(1)设五组数据依次是A1,A2,A3,A4,A5,则取出的两组数据构成:Ω={A1A2,A1A
3,A1A4,A1A5,A2A3,A2A4,A2A5,A3A4,A3A5,A4A5},共有10个元素.则选取的两组数据恰好不相邻这一事件为:A={A1A3,A1A4,A1A5,A2A4,A2A5,A3A5},有6
个元素.所以所求概率P=610=35.(2)因为x—=11+10+123=11,y—=34+26+363=32,所以b^=11×34+10×26+12×36-3×11×32112+102+122-3×112=5,又因为b^x+a^=y,5×11
+a^=32,即a^=-23,所以线性回归方程为y^=5x-23,(3)所以当x=9时,y^=5×9-23=22,这与实7际值y=21比较,误差没有超过两颗,又当x=13时,y^=5×13-23=42,而实际值y=40
,误差也没有超过两颗,所以(2)中得到的线性回归方程y^=5x-23是可靠的.类型四回归分析(2018·济宁高二下期末)某种农作物可以生长在滩涂和盐碱地,它的灌溉是将海水稀释后进行灌溉.某实验基地为了研究海水浓度x
(%)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.海水浓度x(%)34567亩产量y(吨)0.570.530.440.360.30残差e^i-0.010.02mn
0绘制散点图发现,可以用线性回归模型拟合亩产量y(吨)与海水浓度x(%)之间的相关关系,用最小二乘法计算得y与x之间的线性回归方程为y^=-0.07x+ˆa.(1)求ˆa,m,n的值;(2)统计学中常用相关指数R2来刻画回归效果,R2越大,回归效果越好,如假设R
2=0.85,就说明预报变量y的差异有85%是解释变量x引起的.请计算相关指数R2(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?附:残差ˆie=yi-ˆiy,相关指数R2=1-2121ˆ()()niiiniiyyyy,其中521()iiyy
=0.051.解:(1)因为x=15(3+4+5+6+7)=5.y=15(0.57+0.53+0.44+0.36+0.30)=0.44.所以0.44=-0.07×5+ˆa,即ˆa=0.79.所以线性
回归方程为y^=-0.07x+0.79,所以3ˆy=-0.07×5+0.79=0.44,m=y3-3ˆy=0.44-0.44=0.4ˆy=-0.07×6+0.79=0.37,n=y4-4ˆy=0.36-0.37=-0.01.(2)521ˆ()iiiyy=(-0.01)2+
0.022+02+(-0.01)2+02=0.0006.所以相关指数R2=1-0.00060.051≈0.99.故亩产量的变化有99%是由海水浓度引起的.点拨:用相关指数R2来刻画回归效果,R2越大,说明模型拟合的效
果越好.另外,计算也不能出错.(2018春·三明期中)下列关于回归分析的说法中错误的个数是()①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;②回归直线一定过样本中心(x,y);③两个模型中残差平方和越小的模型拟合
的效果越好;④甲、乙两个模型的R2分别约为0.88和0.80,则模型乙的拟合效果更好.A.4B.3C.2D.1解:对于①,残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,所以①错误;对于②,回归直线一定过样本中心(x,y)
,正确;对于③,两个模型中残差平方和越小的模型拟合的效果越好,正确;对于④,R2越大,则模型的拟合效果越好,所以④错误.综上,错误的命题是①、④,共2个.故选C.类型五独立性检验下列说法中正确的是()①独立性检验的基本思想是带有概率性质的反证
法;②独立性检验就是选取一个假设H0条件下的8小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断;③独立性检验一定能给出明确的结论.A.①②B.①③C.
②③D.①②③解:假设检验的基本思想是:“在一次试验中,小概率事件不可能发生”,若小概率事件发生了,则有理由认为原假设不成立,故①②正确,当小概率事件没有发生,则不能拒绝原假设但也不能够肯定原假设,此时结论不明确,③不正确.故选A.点拨:
独立性检验得出的结果是带有概率性质的,只能说结论成立的概率有多大,而不能下确定性结论.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列
联表计算的K2≈3.918,经查临界值表知P(K2≥3.841)=0.05,则下列表述中正确的是()A.有95%的把握认为“这种血清能起到预防感冒的作用”B.若有人未使用该血清,那么他在一年中有95%的可能性得感冒C.这种血清预防感冒的
有效率为95%D.这种血清预防感冒的有效率为5%解:由题意有3.918>3.841,这样得出有95%的把握认为“这种血清能起到预防感冒的作用”.故选A.(2018·贵州黔东南州联考)近年来我国电子商务行业迎来发展的新机遇,与此同时,相关管理部门推出了
针对电商商品和服务的评价体系.现从评价系统中选出200次成功的交易,并对其评价进行统计,对商品好评率为35,对服务好评率为34,其中对商品和服务都做出好评的交易为80次.(1)是否可以在犯错误概率不超过0.1%
的前提下,认为商品好评与服务好评有关?(2)若针对商品的好评率,采用分层抽样的方式从这200次交易中取出5次交易,并从中选择2次交易进行客户回访,求只有1次好评的概率.附:P(K2≥k0)0.100.
050.0250.0100.0050.001k02.7063.8415.0246.6357.87910.828参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.解:(1)由题意可得关于商品评价和服
务评价的2×2列联表:对服务好评对服务不满意合计对商品好评8040120对商品不满意701080合计15050200所以K2=200×(80×10-40×70)2150×50×120×80≈11.111
>10.828,所以可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关.(2)若针对商品的好评率,采用分层抽样的方式从这200次交易中取出5次交易,则好评的交易次数为3,不满意的次数为2.因此,只有1次好评的概率为C13C12C25=61
0=35.点拨:本题重点考查独立性检验、分层抽样及古典概型,这类题型在近年各地模拟题中出现频次较高.(2018·厦门一模)为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示.阅读
时间[0,20)[20,40)[40,60)[60,80)[80,100)[100,120]人数810121172若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图.9(1)根据抽样结果估计该校学生的每天平均阅读时间(
同一组数据用该区间的中点值作为代表);(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?男生女生总计阅读达人非阅读达人总计附:参考公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)
,其中n=a+b+c+d.临界值表:P(K2≥k)0.1000.0500.0100.001k2.7063.8416.63510.828解:(1)该校学生的每天平均阅读时间为:10×850+30×1050+50×1250+70×1150+90×750+110×250=52(分)
.(2)由频数分布表得,“阅读达人”的人数是11+7+2=20人,根据等高条形图作出2×2列联表如下:男生女生总计阅读达人61420非阅读达人181230总计242650计算K2=50×(6×12-18×14)220×30×24×2
6=22552≈4.327.由4.327<6.635,故没有99%的把握认为“阅读达人”跟性别有关.1.用散点图判断相关关系(1)如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.(2)如果所有的样本点都落在某一函数曲线附近,变量之间
就有相关关系.(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.2.回归分析中应注意的问题(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则无意义
.(2)根据回归方程进行的估计仅是一个预测值,而不是真实发生的值.(3)用最小二乘法求回归方程,关键在于正确求出系数ˆa,ˆb,由于ˆa,ˆb的计算量较大,计算应仔细小心.3.线性回归分析的方法、步骤(1)画
出两个变量的散点图;(2)求相关系数r,并确定两个变量的相关程度的高低;(3)用最小二乘法求回归直线方程y^=b^x+a^,.ˆˆ,)())((ˆ1221121xbyaxnxyxnyxxxyyxxbniiniiiniiniii(4)利用回归直
线方程进行预报.注:①对于非线性(可线性化)的回归分析,一般是利用条件及我们熟识的函数模型,将题目中的非线性关系转化为线性关系进行分析,最后还原.②利用相关指数R2=1-niiniiiyyyy1212)()ˆ(刻画回归效果时,R2越
大,意味着残差平方和niiiyy12)ˆ(越小,模型的拟合效果越好.4.独立性检验的一般步骤(1)假设两个分类变量x与y没有关系.(2)计算出K2的观测值,其中10K2=n(ad-bc)2(a+b)(c+
d)(a+c)(b+d).(3)把K2的值与临界值比较,作出合理的判断.5.独立性检验的注意事项(1)在列联表中注意事件的对应及相关值的确定,不可混淆.(2)在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错.(3)对判断
结果进行描述时,注意对象的选取要准确无误.1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并由回归分析法分别求得相关指数R2与残差平方和m如下表.甲乙丙丁R20.850.780.690.82m103106124115
则哪位同学的试验结果体现A,B两变量更强的线性相关性()A.甲B.乙C.丙D.丁解:因为相关指数R2越大,残差平方和m越小,拟合效果越好.故选A.2.(2018·衡阳三模)已知两个随机变量x,y之间的相关关系如表所
示.x-4-2124y31-0.5-1-2根据上述数据得到的回归方程为ˆy=ˆbx+ˆa,则大致可以判断()A.ˆa>0,ˆb<0B.ˆa<0,ˆb<0C.ˆa>0,ˆb>0D.ˆa<0,ˆb>0解:根据随机变量x,y在表格中的数据
可以看出,y随x的增大而减小,因此ˆb<0,由于x=0.2,y=0.1,ˆa=y-ˆbx=0.1-0.2ˆb>0.故选A.3.(2018·兰州一中高二下期末)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:吨)的影响,对近8年的
年宣传费xi和年销售量yi(i=1,2,„,8)数据作了初步处理,得到下面的散点图及一些统计量的值.有下列5个曲线类型:①y=bx+a;②y=cx+d;③y=p+qlnx;④y=k1+ek2x;⑤y=c1x2+
c2,则较适宜作为年销售量y关于年宣传费x的回归方程的是()A.①②B.②③C.②④D.③⑤解:从散点图知,样本点分布在开口向右的抛物线(上支)附近或对数曲线(在x轴上方部分)的附近,所以y=cx+d或y=p+qlnx较适宜.故选B.4.(2017春·天津期末)在两个分类变量的独
立性检验过程中有如下表格.P(K2≥k0)0.500.400.250.150.100.050.0250.0100.005k00.4550.7081.3232.0722.7063.8415.0246.635
7.879已知两个分类变量X和Y,如果在犯错误的概率不超过0.05的前提下认为X和Y有关系,则随机变量K2的观测值可以位于的区间是()A.(0.05,0.10)B.(0.025,0.05)C.(2.706,3.841)D.(3.841,5.024)解:根据题意,在犯
错误的概率不超过0.05的前提下认为X和Y有关系,则随机变量K2的观测值k应满足:3.841<k<5.024,即(3.841,5.024).故选D.5.(2018·云南保山一中高二下期末)已知一组数据(1,2),(3,5),(6,8),(x0,y0)的线性回归方程
为ˆy=x+2,则x0-y0的值为()A.-5B.-3C.-2D.-1解:由题意知x=14(10+x0),y=14(15+y0),因为线性回归方程为ˆy=x+2,所以14(15+y0)=14(10+x0)+2,解得x0-y0=-3.故选B.6.(201
8·石家庄四县七校高二下期末)某同学11用收集到的6组数据对(xi,yi)(i=1,2,3,4,5,6)制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线l1的方程:ˆy=1ˆbx+1ˆa,相关系数为r1,相关
指数为R21;经过残差分析确定点E为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线l2的方程:ˆy=2ˆbx+2ˆa,相关系数为r2,相关指数为R22.则以下结论中,不正确的是()A.r1>0,r2>0B.1ˆbx>0,2ˆb>0C.1ˆb>2ˆbD.R2
1>R22解:从散点图中可以看出,两个变量是正相关,所以选项A是正确的;从图中可以看出,回归直线的斜率是正数,所以选项B和C是正确的;R2值越大,说明残差的平方和越小,也就是说模型的拟合效果越好,所以选项D是错误的.故选D.7.(2018·济宁市邹城一中高二下期中)博鳌亚洲论坛201
8年年会于4月8日至11日在海南博鳌举行.为了搞好对外宣传工作,设会务组选聘了50名记者担任对外翻译工作,则在下面“性别与会俄语”的2×2列联表中,a-b+d=________.会俄语不会俄语总计男ab20女6d
总计1850解:由2×2列联表得a+6=18,所以a=12,因为a+b=20,所以b=8,因为6+d=30,所以d=24,所以a-b+d=12-8+24=28.故填28.8.(2018·大观区校级模拟)已知一组数据确定的
回归直线方程为ˆy=-1.5x+1,且y=4,发现两组数据(-1.7,2.9),(-2.3,5.1)误差较大,去掉这两组数据后,重新求得回归直线的斜率为-1,则此时,当x=-3,ˆy=________.解:数据的样本中心点为(-2,4),去掉(-1.7
,2.9),(-2.3,5.1)后,样本中心不变,重新求得的回归直线的斜率为-1,回归直线方程设为ˆy=-x+ˆa,代入(-2,4),求得ˆa=2,所以回归直线的方程为ˆy=-x+2,将x=-3代入回归直线方程求得ˆy=5.故填5.9.(2018·全国卷Ⅱ)
下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,„,17)建立模型①:ˆy
=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,„,7)建立模型②:ˆy=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(
2)你认为用哪个模型得到的预测值更可靠?并说明理由.解:利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆy=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基
础设施投资额的预测值为ˆy=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(Ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的12线性模型①不能很好地
描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆy
=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(Ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到
的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.以上给出了两种理由,写出其中任意一种或其他合理理由均可.10.(2018·深圳耀华实验学校高二下第二次月考)PM2.5是指空气中直径小于或等于
2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5的数据如下表.时间周一周二周三周四周五车流量x(万辆)5051545758PM2.5的浓度y(微克/立方米)6970747879(1)根据上表数据,
请在所给的坐标系中画出散点图;(2)根据上表数据,用最小二乘法求出y关于x的线性回归方程ˆy=ˆbx+ˆa;(3)若周六同一时间段的车流量是25万辆,试根据(2)求出的线性回归方程,预测此时PM2.5的浓度为多少?(保留整数)参考公式:由
最小二乘法所得回归直线的方程是:ˆy=ˆbx+ˆa,其中ˆb=121()()()niiiniixxyyxx,ˆa=y-ˆbx.解:(1)散点图如下图所示.(2)因为x=50+51+54+57+585=54,y=69+70+74+7
8+795=74,51()()iiixxyy=4×5+3×4+3×4+4×5=64,521()iixx=(-4)2+(-3)2+33+44=50,ˆb=6450=1.28,ˆa=y-ˆb
x=74-1.28×54=4.88,故y关于x的线性回归方程是:ˆy=1.28x+4.88.(3)当x=25时,y=1.28×25+4.88=36.88≈37.所以可以预测此时PM2.5的浓度约为37微克/立方米.
11.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下.13(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2)填写下面列联表,并根
据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:P(K2≥k)0.0500.0100.001k3
.8416.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频
率分布直方图得列联表箱产量<50kg箱产量≥50kg旧养殖法6238新养殖法3466K2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新
养殖法的箱产量平均值(或中位数)在50kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,新养殖法优于旧养殖法.(2018·贵州模拟
)某共享单车企业在A城市就“一天中一辆单车的平均成本与租用单车数量之间的关系”进行了调查,并将相关数据统计如下表.一天中租用单车数量x(千辆)23458一天中一辆单车平均成本y(元)3.22.421.91.5根据以上数据,研究人员设计了两种不
同的回归分析模型,得到两个拟合函数:模型甲:ˆy(1)=4.8x+0.8,模型乙:ˆy(2)=6.4x2+1.6.(1)为了评价两种模型的拟合效果,完成以下任务:(Ⅰ)完成下表(计算结果精确到0.1元)[备注:ˆie=yi-ˆiy,ˆie称为相应于点(xi,yi)的残差];一天中租用单车
数量x(千辆)23458一天中一辆单车平均成本y(元)3.22.421.91.5模型甲估计值(1)ˆiy2.421.81.4残差(1)ˆie000.10.1模型乙估计值(2)ˆiy2.321.9残差(2)ˆie0.10
014(Ⅱ)分别计算模型甲与模型乙的残差平方和Q1及Q2,并通过比较Q1,Q2的大小,判断哪个模型拟合效果更好.(2)这家企业在A城市投放共享单车后,受到广大市民的热烈欢迎并供不应求,于是该企业决定增加单车投放量.根据市场调查,市场投放量达到1万辆时,平均每辆单车一天
能收入8元,6元的概率分别为0.6,0.4;市场投放量达到1.2万辆时,平均每辆单车一天能收入8元,6元的概率分别为0.4,0.6.若按(1)中拟合效果较好的模型计算一天中一辆单车的平均成本,问该企业投放量选择1万辆还是1.2万辆能获得更多利润?请说明理由.(利润=收入-成本)解:(1)(Ⅰ
)经计算,可得下表:一天中租用单车数量x(千辆)23458一天中一辆单车平均成本y(元)3.22.421.91.5模型甲估计值ˆy(1)i3.22.421.81.4残差ˆe(1)i0000.10.1模型乙估计
值ˆy(2)i3.22.321.91.7残差ˆe(2)i00.100-0.2(Ⅱ)计算残差平方和Q1=0.12+0.12=0.02,Q2=0.12+(-0.2)2=0.05,因为Q1<Q2,故模型甲的拟合效果更好.(2)若投放量为1万辆,由(1)模型甲可知,每辆车的成本为4.
810+0.8=1.28(元),这样一天获得的总利润为(8×0.6+6×0.4-1.28)×10000=59200(元),若投放量为1.2万辆,由(1)模型甲可知,每辆车的成本为4.812+0.8=1.2(元),这样一天获得的总利润为(8×0.4+6×0.6-1.2)×12000
=67200(元),因为67200>59200,所以选择投放1.2万辆能获得更多利润.15