【文档说明】高考数学一轮总复习线性回归分析与统计案例课件.ppt,共(96)页,2.741 MB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-256794.html
以下为本文档部分文字说明:
第7课时线性回归分析与统计案例第十章算法初步及概率与统计高考数学一轮总复习…复习任务…1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程
.3.了解独立性检验(只要求2×2列联表)的基本思想、方法以及其简单应用.4.了解回归分析的基本思想、方法及其简单应用.请注意1.以考查线性回归系数为主,同时可考查利用散点图判断两个变量间的相关关系.2.以实际生活为背景,重在考查回归方程的求法.两个变量的线性
相关(1)正相关.在散点图中,点散布在从_______到_______的区域.对于两个变量的这种相关关系,我们将它们称为正相关.(2)负相关.在散点图中,点散布在从_______到_______的区域,两个变量的这种相关关系称为负相关.左下角右上角左上角右
下角(3)线性相关关系、回归直线.如果散点图中点的分布从整体上看大致在____________,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.回归方程(1)最小二乘法.求回归直线使得样本数据的点到回归直线的_______________的方法叫做最小二乘法.(
2)回归方程.方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定参数.一条直线附近距离平方和最小b^=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2=∑ni=1xiyi-
nx-y-∑ni=1xi2-nx-2a^=y--b^x-(x-,y-)称为样本点的中心点.(3)回归分析:对具有__________的两个变量进行统计分析的一种常用方法.(4)相关系数.相关关系①r=∑ni=1(xi-x-)(yi-y-)∑
ni=1(xi-x-)2∑nr=1(yi-y-)2;②当r>0时,表明两个变量_______;当r<0时,表明两个变量_______.r的绝对值越接近于1,表明两个变量的线性相关性_____.r的绝对值越接近于0时,表明两个变量之间_______________________.通常|r|大于_
____时,认为两个变量有很强的线性相关性.正相关负相关越强几乎不存在线性相关关系0.75独立性检验(1)分类变量:变量的不同“值”表示个体所属的_________,像这样的变量称为分类变量.(2)列联表:列出两个分类变量的______
___,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1aBa+bx2cDc+d总计a+cb+da+b+c+d不同类别频数表构造一个随机变量K2=_________________
_____________,其中n=____________为样本容量.(3)独立性检验.利用随机变量_____来确定是否能有一定把握认为“两个分类变量_______”的方法称为两个分类变量的独立性检验.a+b+c+dK2有关系1.判断下面结论是否正确(打“√”或“×”).(
1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(2)两个随机变量的线性相关性越强,相关系数的绝对值越接近于0.(3)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y^=-2.352x+1
47.767,则气温为2℃时,一定可卖出143杯热饮.(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.(5)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.答案(1)
√(2)×(3)×(4)√(5)×2.最小二乘法的原理是()A.使得∑ni=1[yi-(a+bxi)]最小B.使得∑ni=1[yi-(a+bxi)2]最小C.使得∑ni=1[yi2-(a+bxi)2]最小D.使得∑ni
=1[yi-(a+bxi)]2最小答案D解析根据回归方程表示到各点距离之和最小的直线方程,即总体偏差最小,亦即∑ni=1[yi-(a+bxi)]2最小.3.下列说法错误的是()A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.在线性
回归分析中,相关系数r的值越大,变量间的相关性越强C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好答案B解析根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,
当r<0时,r越大,相关性越弱,故B不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好,二是R2越大,拟合效果越好,所以R2为0.98的模型比R2为0.80的模型拟合的效果好,C,D正确,故选B.4.(2014·湖北
,理)根据如下样本数据x345678y4.02.5-0.50.5-2.0-3.0得到的回归方程为y^=b^x+a^,则()A.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0答案B解析
根据题中表内数据画出散点图(图略),由散点图可知b^<0,a^>0,选B.5.(2019·沧州七校联考)通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到统计量K2的观测值k≈4.892,参照附表,得到的正确结论是(
)P(K2≥k)0.100.050.025k2.7063.8415.024A.有97.5%以上的把握认为“爱好该项运动与性别有关”B.有97.5%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过5%
的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”答案C题型一判断变量的相关性(1)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论
中正确的是()A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相
关,且脂肪含量的中位数小于20%【解析】观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.【答案】B(2)对四组数据进行统计,获得以下关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.
r2<r4<0<r1<r3【解析】由相关系数的定义及散点图所表达的含义,可知r2<r4<0<r3<r1,故选A.【答案】A【探究】线性相关关系与函数关系的区别(1)函数关系中的两个变量间是一种确定性关系.例如,正方形面积S与边长x之间的关系S=x2就是函数关系.(2)相关关系是一种非确
定性关系,即相关关系是随机变量与随机变量之间的关系.例如,商品的销售额与广告费是相关关系.两个变量具有相关关系是回归分析的前提.★状元笔记★判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到
右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归方程中:b^>0时,正相关;b^<0时,负相关.思考题1(1)与变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,
3),(12.5,4),(13,5);与变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量y与x之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2<r1<0B.0<r2<r1C.
r2<0<r1D.r2=r1【解析】对于变量Y与X而言,Y随X的增大而增大,故Y与X成正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U成负相关,即r2<0,所以有r2<0<r1.【答案】C(2)四名同学根据各自的样本数据研究变量x,y
之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关
且y^=-4.326x-4.578.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④【解析】正相关指的是y随x的增大而增大.负相关指的是y随x的增大而减小,故不正确的为①④,故选D.【答案】D题型二线性回归分析(2019·福建泉州一模)某测试团队为了研究“饮酒”对“驾
车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试,测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子停下所需要的距离
),无酒状态与酒后状态下的试验数据分别列于下表.表1停车距离d(米)(10,20](20,30](30,40](40,50](50,60]频数26ab82表2平均每毫升血液酒精含量x(毫克)10305070
90平均停车距离y(米)3050607090已知表1数据的中位数估计值为26,回答以下问题.(1)求a,b的值,并估计驾驶员无酒状态下停车距离的平均数;(2)根据最小二乘法,由表2的数据计算y关于x的回归方
程y^=b^x+a^;(3)该测试团队认为:若驾驶员酒后驾车的平均“停车距离”y大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?(附:回归方程y^=b^x+a^中,b
^=∑ni=1xiyi-nx-y-∑ni=1xi2-nx-2,a^=y--b^x-)【解析】(1)依题意,得610a=50-26,解得a=40.又a+b+36=100,解得b=24,故停车距离的平均数为15×26100+25×40100+35×241
00+45×8100+55×2100=27.(2)依题意,可知x-=50,y-=60,b^=10×30+30×50+50×60+70×70+90×90-5×50×60102+302+502+702+902-5×502=0.7,a^=60-0.7×50=25,所以回归直线
方程为y^=0.7x+25.(3)由(1)知当y>81时,认定驾驶员是“醉驾”.令y^>81,得0.7x+25>81,解得x>80,则当每毫升血液酒精含量大于80毫克时认定为“醉驾”.【答案】(1)a=40b=2427(
2)y^=0.7x+25(3)80思考题2(2014·课标全国Ⅱ,理)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(
1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b^=∑ni=1(ti-t-)(yi-y-)∑ni=1(ti-t
-)2,a^=y--b^t-.【思路】(1)先求出平均数t-与y-,然后利用所给公式求出b^,a^,即可得到线性回归方程;(2)由(1)中的方程指出其变化特点,找出2015年所对应的年份代号t=9,代入回归直线方程即得到人均纯收入的预测值.【解析】(1)由所给数据计算,得t-=17×(1+2+
3+4+5+6+7)=4,y-=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑7i=1(ti-t-)2=9+4+1+0+1+4+9=28,∑7i=1(ti-t-)(yi-y-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)
+0×0.1+1×0.5+2×0.9+3×1.6=14,b^=∑7i=1(ti-t-)(yi-y-)∑7i=1(ti-t-)2=1428=0.5,a^=y--b^t=4.3-0.5×4=2.3.所求回归方程为y^=0.5t+2.3.(2)由(1)知,b^=0.5>0,故2007
年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t=9代入(1)中的回归方程,得y^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入约为6.8千元
.【答案】(1)y^=0.5t+2.3(2)约为6.8千元【讲评】利用回归方程可以预测估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制,依据自变量的取值估计和预报因变量值的基础和依据,有广泛的应用.(2016·课标全国Ⅲ)
下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y与t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数
据:∑7i=1yi=9.32,∑7i=1tiyi=40.17,∑7i=1(yi-y-)2=0.55,7≈2.646.参考公式:相关系数r=∑ni=1(ti-t-)(yi-y-)∑ni=1(ti-t-)2∑ni=1(yi-y-)2,回归方程y^=a^+b^t中斜率和截距的最小二乘估计公式分别为:b
^=∑ni=1(ti-t-)(yi-y-)∑ni=1(ti-t-)2,a^=y--b^t-.【解析】(1)由折线图中数据和附注中参考数据得t-=4,∑7i=1(ti-t-)2=28,∑7i=1(yi-y-)2=0.55,∑7i=1(ti-t
-)(yi-y-)=∑7i=1tiyi-t-∑7i=1yi=40.17-4×9.32=2.89,∴r≈2.890.55×2×2.646≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关
系.(2)由y-=9.327≈1.331及(1)得b^=∑7i=1(ti-t-)(yi-y-)∑7i=1(ti-t-)2=2.8928≈0.103,a^=y--b^t-≈1.331-0.103×4≈0.92.所以,y关于
t的回归方程为y^=0.92+0.10t,将2016年对应的t=9代入回归方程得y^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.【答案】(1)因为y与t的相关系数近似为0.99,说明y与t的线性相关
程度相当高,从而可以用线性回归模型拟合y与t的关系.(2)1.82亿吨思考题3假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下的统计数据;x(年)23456y(万元)2.23.85.56
.57.0已知∑5i=1xi2=90,∑5i=1yi2=140.8,∑5i=1xiyi=112.3,79≈8.9,2≈1.4.(1)求x-,y-;(2)对x,y进行线性相关性检验;(3)如果x与y具有线性相关关系,求出回归直线方程;(4)估计使用年限为10年时,维修费用约是多少?【解析】(1)x
-=2+3+4+5+65=4,y-=2.2+3.8+5.5+6.5+7.05=5.(2)因为∑5i=1xiyi-5x-y-=112.3-5×4×5=12.3,∑5i=1xi2-5x-2=90-5×16=10,∑5i=1yi2-5y-2=140.8-125=15.
8,所以r=12.310×15.8=12.3158≈0.987.因为0.987>0.75,所以x与y之间具有很强的线性相关关系.(3)因为b^=∑5i=1xiyi-5x-y-∑5i=1xi2-5x-2=12.310=1
.23,a^=y--b^x-=5-1.23×4=0.08,所以所求的回归直线方程为y^=1.23x+0.08.(4)当x=10时,y^=1.23×10+0.08=12.38,即估计使用年限为10年时,维修费用约为12.38万
元.【答案】(1)x-=4,y-=5(2)略(3)y^=1.23x+0.08(4)12.38万元题型三独立性检验(2019·山东淄博一期中)某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过1000元的消费者中男女比例为1∶4,该店按此比例抽
取了100名消费者进行进一步分析,得到下表:女性消费情况:消费金额/元(0,200)[200,400)[400,600)[600,800)[800,1000]人数51015473男性消费情况:消费金额/元(0,200)[200,400)[400,600)[600,800)[800,1000]
人数231032若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”.(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?(2)根据以上统计数据填写如下2×2列联表,
并判断能否在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.女性男性合计“网购达人”“非网购达人”合计附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K
2≥k0)0.100.050.0250.0100.005k02.7063.8415.0246.6357.879【解析】(1)女性消费者消费的平均数为180×(100×5+300×10+500×15+700×47+900×3)=582
.5.男性消费者消费的平均数为120×(100×2+300×3+500×10+700×3+900×2)=500.“女网购达人”消费的平均数为150×(700×47+900×3)=712.“男网购达人”消费的平均数为15×(700×3+900×2)=780.虽然女性消费者消费水平较高,但“女网
购达人”平均消费水平低于“男网购达人”平均消费水平,所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰.(2)2×2列联表如下所示:女性男性合计“网购达人”50555“非网购达人”301545合计8020100K2=100×(5
0×15-30×5)280×20×55×45≈9.091,因为9.091>7.879,所以能在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.【答案】(1)不一定(2)能★状元笔记★独立性检验的方法(1)构造2×2列联表;(2)计算K2;(3)查表确定有多大的把握
判定两个变量有关联.注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k值与求得的K2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可
能性为1-p.思考题4(2019·重庆二诊)“微信运动”已成为当下热门的健身方式,小王的微信朋友圈内也有大量好友参与了“微信运动”,他随机选取了其中的40人(男、女各20人),记录了他们某一天的走路步数,并将数据整理如下:步数性
别0~20002001~50005001~80008001~10000>10000男12368女021062(1)若采用样本估计总体的方式,试估计小王的所有微信好友中每日走路步数超过5000步的概率;(2)已知某人一天的走路步数超过80
00步时被系统评定为“积极型”,否则为“懈怠型”.根据小王的统计完成下面的2×2列联表,并据此判断能否有95%以上的把握认为“评定类型”与“性别”有关?积极型懈怠型总计男女总计附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d
),P(K2≥k0)0.100.050.0250.010k02.7063.8415.0246.635【解析】(1)由题知,40人中该日走路步数超过5000步的有35人,频率为3540=78,所以估计他的所有微信好友中每日走路步数超过5000步的概率为78.(2
)补全的2×2列联表如下:积极型懈怠型总计男14620女81220总计221840K2=40×(14×12-6×8)220×20×22×18=4011<3.841,故没有95%以上的把握认为“评定类型”与“性别”有关.【答案】
(1)78(2)没有1.求回归方程,关键在于正确求出系数a^,b^,由于a^,b^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b^,常数项为a^,这与一次函数的习惯表示不同.)2.根据K2的值可以判断两个分类变量有
关的可信程度,并用来指导科研和生活实际.高考怎么考1.(2017·山东,理)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y^=b^x+a^,已知∑10i=
1xi=225,∑10i=1yi=1600,b^=4.该班某学生的脚长为24,据此估计其身高为()A.160B.163C.166D.170解析由题意可知y^=4x+a^,又x-=22.5,y-=160,因此160=
22.5×4+a^,∴a^=70,因此y^=4x+70.当x=24时,y^=4×24+70=96+70=166.答案C2.(2015·课标全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和
年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x-y-w-∑8i=1(xi-x-)2∑8i=1(wi-w-)2∑8i=1(xi-x-)(yi-y-)∑8i=1(wi-w-)(yi-y
-)46.65636.8289.81.61469108.8表中wi=xi,w-=18∑8i=1wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于
x的回归方程;(3)已知这种产品的年利率z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利率的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(
un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:β^=∑ni=1(ui-u-)(vi-v-)∑ni=1(ui-u-)2,α^=v--β^u-.答案(1)y=c+dx适宜,理由略(2)y^=100.6+68x(3)①66.32②46.24千
元解析(1)由散点图可以判断y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于d^=∑8i=1(wi-w-)(yi-y-)∑8i=1(wi-w-)2=108.81.6
=68,∴c^=y--d^w-=563-68×6.8=100.6.∴y关于w的线性回归方程为y^=100.6+68w.因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知x=49时,年销售量y的预报值为y
^=100.6+6849=576.6.年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知年利润z的预报值为z^=0.2(100.6+68x)-x=-x+13.6x+20.12.当x=13.62=6.
8即x=46.24时,z^取得最大值.∴年宣传费为46.24千元时,年利率的预报值最大.3.(2017·课标全国Ⅱ,理)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1
)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布
直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P(K2≥k)0.0500.0100.010k3.8416.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).答案(1)0
.4092(2)表见解析(3)52.35(kg)解析(1)记B表示事件“旧养殖法的箱产量低于50kg”,C表示事件“新养殖法的箱产量不低于50kg”.由题意知P(A)=P(BC)=P(B)P(C),旧养殖法的箱产量
低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.故P(B)的估计值为0.62.新养殖法的箱产量不低于50kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值
为0.62×0.66=0.4092.(2)由(1)得旧养殖法的箱产量低于50kg的有0.62×100=62(个),新养殖法箱产量低于50kg的频率为(0.004+0.020+0.044)×5=0.34,新养殖法的箱
产量低于50kg的有0.34×100=34(个).根据箱产量的频率分布直方图得列联表:箱产量<50kg箱产量≥50kg合计旧养殖法6238100新养殖法3466100K2=200×(62×66-34×38)2100×100×
96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55kg的直方图面积为(0.00
4+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg).4.(2017·课标全国Ⅰ,文)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上
随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9
110.1310.029.2210.0410.059.95经计算得x-=116∑16i=1xi=9.97,s=116∑16i=1(xi-x-)2=116(∑16i=1xi2-16x-2)≈0.212,∑16i=1(i-8.5)2≈18.439,∑16i=1(xi
-x-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地
变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(x--3s,x-+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.a.从这一天抽检的结果看,是否需对当天的生产过程进行检查?b.在(x--3s,x-+3s)之外的数据称为离群值,试
剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(xi,yi)(i=1,2,…,n)的相关系数r=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2∑ni=1(yi-y-)2.0.008≈0.09.答案(1)可以
(2)a.需b.10.020.09解析(1)由样本数据得(x,i)(i=1,2,…,16)的相关系数为r=∑16i=1(xi-x-)(i-8.5)∑16i=1(xi-x-)2∑16i=1(i-8.5)2=-2.780.
212×16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)a.由x-=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x--3s,x-+3s)以外,因此需
对当天的生产过程进行检查.b.剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,∴这条生产线当天生产的零件尺寸的均值的估值为10.02.∑16i=1xi2=16×
0.2122+16×9.972≈1591.134.剔除第13个数据,剩下数据的样本方差为115×(1591.134-9.222-15×10.022)≈0.008.这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.
09.5.(2018·课标全国Ⅱ,文)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-3
0.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.答案(1)模型①226.1亿元模型②
256.5亿元(2)模型②得到的预测值更可靠,理由略.解析(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地
区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-
30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额
的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算
结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.6.(2018·课标全国Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两
种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如
图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种
生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),答案(1)第二种理由略(2)80表见解析(3)有解析(1)第二种生产方式的效率更高.理由如下:①由茎叶图可
知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.②由茎叶图可知:用第一
种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生
产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7
上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知m
=79+812=80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.