【文档说明】通用版高考数学(文数)一轮复习第15单元《统计与统计案例》学案(含详解) .doc,共(59)页,1.143 MB,由MTyang资料小铺上传
转载请保留链接:https://www.ichengzhen.cn/view-27780.html
以下为本文档部分文字说明:
1第十五单元统计与统计案例教材复习课“统计与统计案例”相关基础知识一课过三种抽样方法[过双基]三种抽样方法类别共同点各自特点相互联系适用范围简单随机抽样是不放回抽样,抽样过程中,每个个体被抽到的机会(概率)相等从总体中逐个抽取总体中的个数较少系统抽样将总体均分成几部分,按事先确定的规
则,在各部分抽取在起始部分抽样时,采用简单随机抽样总体中的个数比较多分层抽样将总体分成几层,分层进行抽取各层抽样时,采用简单随机抽样或系统抽样总体由差异明显的几部分组成[小题速通]1.从一个容量为N的总体中抽取一个容量为n的样本,当选取简单随机抽样、系统抽样和分
层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3解析:选D根据简单随机抽样、系统抽样和分层抽样的定义可知,无论哪种抽样,每个
个体被抽中的概率都是相等的,所以p1=p2=p3.2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是()A.10B.11C.12D.1
6解析:选D从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16.3.为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学中抽取60名教师进行调查,已知A,B,C
三所学校中分别有180,270,90名教师,则从C学校中应抽取的人数为()A.10B.122C.18D.24解析:选A根据分层抽样的特征,从C学校中应抽取的人数为90180+270+90×60=10.[清易错]1.系统抽样中,易忽视抽取的样本数也就是分
段的段数,当Nn不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列.2.分层抽样中,易忽视每层抽取的个体的比例是相同的,即样本容量n总体个数N.1.从2018名学生中选取50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从2018名
学生中剔除18名学生,剩下的2000名学生再按系统抽样的方法抽取,则每名学生入选的概率()A.不全相等B.均不相等C.都相等,且为502018D.都相等,且为140解析:选C从N个个体中抽取M个个体,则每个个体被抽到的概率都等于MN.2.从300名学生(其中男生18
0人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取男生人数为()A.27B.30C.33D.36解析:选B因为男生与女生的比例为180∶120=3∶2,所以应该抽取男生人数为50×33
+2=30.频率分布直方图和茎叶图[过双基]1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差);(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线
图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频3率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记
录,这对数据的记录和表示都能带来方便.[小题速通]1.在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为()A.0.25B.0.5C.20D.16
解析:选D设中间一组的频数为x,依题意有x80=141-x80,解得x=16.2.某学生在8次测试中,数学成绩的茎叶图如图,则这8次成绩的中位数是()A.86B.87C.87.5D.88.5解析:选A由茎叶图得到8个数的大小顺序依次是78,7
9,83,85,87,88,89,96,中间的两个数为85,87,所以中位数为85+872=86.[清易错]1.易把直方图与条形图混淆两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,连续随机变量在某一点上是没有频率的.2.易忽视频率分布直方图中纵轴表
示的应为频率组距.3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.1.某校100名学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[5
0,60),[60,70),[70,80),[80,90),[90,100],则图中a的值为()4A.0.006B.0.005C.0.0045D.0.0025解析:选B由题意知,a=1-+0.03+2×10=0.005,故选B.2.(郑州检测)已知
甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值mn=________.解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所
以m=3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以20+n+32+34+384=33,解得n=8,所以mn=38.答案:38样本的数字特征[过双基]1.众数、中位数、平均数数字特征定义与求法优点与缺点众数一组数据中重复出现次数最多的数众数通常用于描述变量的值
出现次数最多的数.但显然它对其他数据信息的忽视使得无法客观地反映总体特征中位数把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感
有时也会成为缺点平均数如果有n个数据x1,x2,„,xn,那么这n个数的平均数x=x1+x2+„+xnn平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低5
2.标准差、方差(1)标准差:样本数据到平均数的一种平均距离,一般用s表示,s=1nx1-x2+x2-x2+„+xn-x2].(2)方差:标准差的平方s2s2=1n[(x1-x)2+(x2-x)2+„+(xn-x)2],其中xi(i=1,2,3,„,n)是样
本数据,n是样本容量,x是样本平均数.[小题速通]1.对于一组数据xi(i=1,2,3,„,n),如果将它们改变为xi+C(i=1,2,3,„,n),其中C≠0,则下列结论正确的是()A.平均数与方差均
不变B.平均数变,方差保持不变C.平均数不变,方差变D.平均数与方差均发生变化解析:选B依题意,记原数据的平均数为x-,方差为s2,则新数据的平均数为x1+C+x2+C+„+xn+Cn=x-+C,即新数据的平均数改变;新数据的方差为1n[(x1+C)-(x-+C)]2+[(x2+
C)-(x-+C)]2+„+[(xn+C)-(x-+C)]2=s2,即新数据的方差不变.2.样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均值为1,则其方差为()A.105B.305C.2D.2解
析:选D依题意得m=5×1-(0+1+2+3)=-1,样本方差s2=15(12+02+12+22+22)=2,即所求的样本方差为2.3.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,1
2,设其平均数为a,中位数为b,众数为c,则a,b,c的大小关系为()A.a>b>cB.b>c>aC.c>a>bD.c>b>a解析:选D依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a<15,b=15,c=17,c>b>a.4.某校甲、乙两个班级
各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:6学生1号2号3号4号5号甲班67787乙班67679若以上两组数据的方差中较小的一个为s2,则s2=_______
_.解析:由数据表可得乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为7,方差s2=15(1+0+0+1+0)=25.答案:25变量间的相关关系、统计案例[过双基]1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是
函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果
这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y^=b^x+a^,其中b^=i=1nxiyi-nx-y-i=1nx2i-nx-2,a^=y--b^x-
.(3)通过求Q=i=1nyi-bxi-a2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表
明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1
,y2},其样本频数列联表(称7为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+dK2=nad-bc2a+ba+cb+dc+d(其中n=a+b+c+d为样本容量).[小题速通]1.如图是
根据x,y的观测数据(xi,yi)(i=1,2,„,10)得到的散点图,可以判断变量x,y具有线性相关关系的图是()A.①②B.①④C.②③D.③④解析:选D若变量x,y具有线性相关关系,那么散点就在某条直线附近,从左
上到右下,或从左下到右上,故选D.2.已知变量x,y取值如表所示:x01456y1.3m3m5.67.4画散点图分析可知:y与x线性相关,且求得回归方程为y^=x+1,则m的值(精确到0.1)为()A.1.5B.1.6C.1.7D.1.8解析:选C由题意知,x=
3.2代入回归方程y^=x+1可得y=4.2,则4m=4.2×5-(1.3+5.6+7.4)=6.7,解得m=1.675,则精确到0.1后m的值为1.7.3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽
取50名学生,得到如下2×2列联表:理科文科8男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=-223×27×20×30≈4.844.则认为选修文科与性
别有关系出错的可能性为________.解析:K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%[清易错]1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系
是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x,y)点,可能所有的样本数据点都不在直线上.设某大学的女生体重y(单位:kg)与身高x(单位
:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,„,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1cm,则其体重
约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg解析:选D由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1cm,其体重约增加0.85
kg,故C正确.当某女生的身高为170cm时,其体重估计值是58.79kg,而不是具体值,因此D不正确.一、选择题1.(邯郸摸底)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则
n=()A.660B.7209C.780D.800解析:选B由已知条件,抽样比为13780=160,从而35600+780+n=160,解得n=720.2.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y
=3.5,则由该观测数据算得的线性回归方程可能为()A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4解析:选A依题意知,相应的回归直线的斜率应为正,排除C,D.且直线必过点(3,3.5),代入A、B,知A
正确.3.从编号为001,002,„,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为()A.480B.481C.482D.
483解析:选C根据系统抽样的定义可知样本的编号成等差数列,令a1=7,a2=32,则d=25,所以7+25(n-1)≤500,所以n≤20,最大编号为7+25×19=482.4.根据如下样本数据:x234567y4.12.5-0.50.5-2.0-3.0得
到的回归方程为y^=b^x+a^,则()A.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0解析:选B根据样本数据画出散点图(图略),可知b^<0,a^>0.5.如图是某学校举
行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为()A.84,4.84B.84,1.6C.85,1.6D.85,4解析:选C依题意,所剩数据的平均数是80+1
5×(4×3+6+7)=85,所剩数据的方差10是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.6.某时段内共有100辆汽车经过某一雷达测速区域,将测得的汽车的时速绘制成如图所示的
频率分布直方图,根据图形推断,该时段时速超过50km/h的汽车的辆数为()A.56B.61C.70D.77解析:选D由图知,时速超过50km/h的汽车的频率为(0.039+0.028+0.010)×10=
0.77,所以时速超过50km/h的汽车的辆数为100×0.77=77.7.(江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线一线总计愿生452065不愿生13
2235总计5842100由K2=nad-bc2a+bc+da+cb+d,得K2=-265×35×58×42≈9.616.参照下表,P(K2≥k0)0.0500.0100.001k03.8416.63510.828下列说法中,正确的结论是()A.在犯错误的
概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”解析:选C∵K2≈9.616>6.635
,∴有99%以上的把握认为“生育意愿与城市级别有关”.8.从甲、乙两个城市分别随机抽取14台自动售货机,对其销售额进行统计,统计数据11用茎叶图表示(如图),设甲、乙两组数据的平均数分别为x甲,x乙,中位数分别为m甲,m乙,则()A.x甲<x
乙,m甲>m乙B.x甲<x乙,m甲<m乙C.x甲>x乙,m甲>m乙D.x甲>x乙,m甲<m乙解析:选A由题意得x甲=5+6+10+„+4814≈24.3,x乙=8+8+10+„+4314≈24.4,即x甲<x乙;又m甲=22+252=23.5,m乙=23,即m甲>m乙,故选A.二、填空题9.某中学
采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是________.解析:间隔数k=80050=16,即每16人抽取一个人.由于39=2×16+7,所以第
1小组中抽取的数为7.答案:710.某车间需要确定加工零件的加工时间,进行了若干次试验.根据收集到的数据(如表):零件数x/个1020304050加工时间y/分钟6268758189由最小二乘法求得回归直线方程y^=0.67x+a^,则a^的值为_______
_.解析:∵x=15×(10+20+30+40+50)=30,y=15×(62+68+75+81+89)=75,12回归直线方程y^=0.67x+a^过样本中心点(x,y),∴a^=75-0.67×30=54.9.答案:54.911.已知甲、乙、丙三类产品共有1200件,且甲、
乙、丙三类产品的数量之比为3∶4∶5,现采用分层抽样的方法抽取60件进行质量检测,则乙类产品抽取的件数为________.解析:由题意可知,乙类产品抽取的件数为60×43+4+5=20.答案:2012
.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是___
_____.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析:K2≈3.918≥3.841,而P(K2≥3.814)≈0.05,所以有95%的把握认为“这种
血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①三、解答题13.某地区2011年至2017年农村居民家庭人均纯收入y(单位:千元)的数据如表:年份20112012
20132014201520162017年份代号x1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y关于x的线性回归方程;(2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化
情况,并预测该地区2019年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:b^=13i=1nxi-xyi-yi=1nxi-x2,a^=y-b^x(其中x,y为样本平均
值).解:(1)由题意,得x=17×(1+2+3+4+5+6+7)=4,y=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,i=17(xi-x)(yi-y)=(-3)×(-1
.4)+(-2)×(-1)+(-1)×(-0.7)+0+1×0.5+2×0.9+3×1.6=14,i=17(xi-x)2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,所以b^=1428=0.5,a^=y-b^x=4.3-0.5×4=2.3,
所以y关于x的线性回归方程为y^=0.5x+2.3.(2)因为b^=0.5>0,所以2011年至2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元,因为2019的年份代号是x=9,所以代入(1)中的
回归方程,可得y^=0.5×9+2.3=6.8,所以预测该地区2019年农村居民家庭人均纯收入为6.8千元.14.(唐山统考)为了调查某校学生体质健康达标情况,现采用随机抽样的方法从该校抽取了m名学生进行体育
测试.根据体育测试得到了这m名学生的各项平均成绩(满足100分),按照以下区间分为七组:[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并得到频率
分布直方图(如图).已知测试平均成绩在区间[30,60)内有20人.14(1)求m的值及中位数n;(2)若该校学生测试平均成绩小于n,则学校应适当增加体育活动时间.根据以上抽样调查数据,该校是否需要增加体育活动时间?解:(1
)由频率分布直方图知第1组,第2组和第3组的频率分别是0.02,0.02和0.06,则m×(0.02+0.02+0.06)=20,解得m=200.由直方图可知,中位数n位于[70,80)内,则0.02+0.02+0.06+0.22+0.04(n-70)=0.5,解得n=74.5.(2)设第i
(i=1,2,3,4,5,6,7)组的频率和频数分别为pi和xi,由图知,p1=0.02,p2=0.02,p3=0.06,p4=0.22,p5=0.40,p6=0.18,p7=0.10,则由xi=200×pi,可得x1=4
,x2=4,x3=12,x4=44,x5=80,x6=36,x7=20,故该校学生测试平均成绩是x=1200×(35x1+45x2+55x3+65x4+75x5+85x6+95x7)=74<74.5,所以学校应该适当增加体育活动时间.高考研究课一随机抽样[全国卷5年命题
分析]考点考查频度考查角度系统抽样未考查分层抽样5年1考抽样方法的选择系统抽样[典例]将参加夏令营的600名学生编号为:001,002,„,600.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的
号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,则三个营区被抽中的人数依次为()A.26,16,8B.25,17,815C.2
5,16,9D.24,17,9[解析]依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k(k∈N*)组抽中的号码是3+12(k-1).令3+12(k-1)≤300,得k≤1034,因此A营区被抽中的人数是25;令300<3+12(k-1)≤495,得103
4<k≤42,因此B营区被抽中的人数是42-25=17,故C营区被抽中的人数为50-25-17=8.[答案]B[方法技巧]解决系统抽样问题的2个关键步骤(1)分组的方法应依据抽取比例而定,即根据定义每
组抽取一个样本.(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.[即时演练]1.某学校教务处采用系统抽样方法,从学校高三年级全体1000名学生中抽50名学生做学习状
况问卷调查.现将1000名学生从1到1000进行编号,求得间隔数k=20,即分50组,每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是()A.117B.157C.417D.
367解析:选B根据系统抽样法的特点,可知抽取出的号码成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.2.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分
成5组.按系统抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有被抽出职工的号码为________.解析:由题意,把40名职工分成5组,故组距为405=8,又第一组抽出的号码为2,则抽出的所有号码组成以2为首项,8为公差的等差数列,故抽
出的号码为2,10,18,26,34.答案:2,10,18,26,34分层抽样分层抽样是历年高考的重要考点之一,高考中常把分层抽样、频率分布、概率综合起来进行考查,反映了当前高考的命题方向.这类试题难度不大,但考查的知识面较为宽广,在解
题中要注意准确使用所学知识,不然在一个点上的错误就会导致整体失误.,常见的命题角度有:16与频率分布直方图相结合问题;与概率相结合问题.角度一:与频率分布直方图相结合问题1.某校从高三年级中随机选取200名学生,将他们的一模数学成绩绘制成频率分布直方图(如图).由图中数据可知a=
________.若要从成绩在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从成绩在[130,140)内的学生中选取的人数应为________.解析:由题意知,(0.020
+0.035+a+0.010+0.005)×10=1,解得a=0.030.由分层抽样的原则可知,在[120,130),[130,140),[140,150]三组内的学生中,人数比为6∶2∶1.所以从成绩在[130,140)内的学生中选取的人数
为18×29=4.答案:0.03042.从某学校所有高一学生某次计算机笔试成绩中选出40名学生的成绩(单位:分),成绩分组区间为[50,70),[70,90),[90,110),[110,130),[130,150],由此绘制成如图所示的频率分布直方图,规
定成绩低于90分为不及格,成绩不低于90分为及格.(1)求频率分布直方图中m的值;(2)求这40名学生中不及格的学生人数;(3)从不及格的学生中按成绩用分层抽样的方法任选5人,再从这5人中任选2人,求这2人的成绩均在[70,90)内的概率.解:(1)由题中频率分布直方图知,组距为20,由
m+32m+72m+3m+m×20=1,解得m=0.005.(2)这40名学生中不及格的学生人数为52×0.005×20×40=10.17(3)按成绩分层抽样,则从成绩在[50,70),[70,90)的学生中应选取的人
数分别为25×5=2,35×5=3,记成绩在[50,70)内的2人分别为A1,A2,成绩在[70,90)内的3人分别为B1,B2,B3,“2人的成绩均在[70,90)内”为事件A,则从这5人中任选2人的基本事件有(A1,A2),(A1,B1),(A1,B2),(A1,B3),
(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3),共10个.其中这2人的成绩都在[70,90)内的基本事件有(B1,B2),(B1,B3),(B2,B3),共3个.故所求概率P(A)=310
.角度二与概率相结合问题3.由世界自然基金会发起的“地球1小时”活动已发展成为最有影响力的环保活动之一,今年的参与人数再创新高,然而也有部分公众对该活动的实际效果与影响提出了疑问.对此,某新闻媒体进行了网上调查,在所有参与调查的人中,持“支持”、“保留
”和“不支持”态度的人数如下表所示:态度年龄支持保留不支持20岁以下80045020020岁以上(含20岁)100150300(1)在所有参与调查的人中,用分层抽样的方法抽取n个人,已知从持“支持”态度的人中抽取了45人,求n的值;(2)在持“不
支持”态度的人中,用分层抽样的方法抽取5人看成一个总体,从这5人中任意选取2人,求至少有1人年龄在20岁以下的概率.解:(1)由题意得45800+100=n800+450+200+100+150+300,解得n=100.(2)设所抽取的人中,有m人年龄在20岁以下
,则200200+300=m5,解得m=2.即20岁以下抽取了2人,分别记为A1,A2;20岁以上(含20岁)抽取了3人,分别记为B1,B2,B3,则从中任取2人的所有基本事件为(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B
3),(A1,A2),(B1,B2),(B2,B3),(B1,B3),共10个.其中至少有1人年龄在20岁以下的基本事件为(A1,B1),(A1,B2),(A1,B3),(A2,B1),18(A2,B2),(A2,B3),(A1,A2),共7个,所
以从中任意抽取2人,至少有1人年龄在20岁以下的概率为710.[方法技巧]进行分层抽样的相关计算时,常用到的2个关系(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这
两层抽取的个体数之比.1.(2013·全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女
生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:选C由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,
而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.2.(2015·北京高考)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()类别人数老年教师900中年教师1800青
年教师1600合计4300A.90B.100C.180D.300解析:选C设该样本中的老年教师人数为x,由题意及分层抽样的特点得x900=3201600,故x=180.3.(2015·湖南高考)在一次马拉松比赛中,35名运动员的成绩(单
位:分钟)的茎叶图如图所示.19若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是()A.3B.4C.5D.6解析:选B35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区
间[139,151]上共有20个数据,分在4个小组中,每组取1人,共取4人.4.(2015·福建高考)某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样
本,则应抽取的男生人数为________.解析:设男生抽取x人,则有45900=x900-400,解得x=25.答案:25一、选择题1.某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则
)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为()A.16B.17C.18D.19解析:选C设第一组抽取的号码为x,根据题意可得抽样间隔为100040=25,则x+25×(18-1)=443,解得x
=18.2.某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区有20个大型销售点,要从中抽取7个调查
其销售收入和售后服务等情况,记这项调查为②,则完成①②这两项调查宜采用的抽样方法依次是()A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法解析:选B一般甲、乙、丙、丁四个地区会存在差异,采用分层抽样法较好.在丙地20区中抽取的样
本个数较少,易采用简单随机抽样法.3.《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱
好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为()A.2B.4C.5D.6解析:选B由茎叶图可知,“诗词达人”有8人,“诗词能手”有16人,“诗词爱好者”有16人,由分层抽样可得,抽选的学生中获得“
诗词能手”称号的人数为1040×16=4.4.某校高一、高二、高三的学生人数之比为2∶3∶5,若用分层抽样的方法抽取容量为200的样本,则应从高三学生中抽取的人数为()A.40B.60C.80D.100解析:选D∵高一、高二、高三的学生人数之比为2∶3∶5,∴若用分层抽样的方法抽取
容量为200的样本,则应从高三学生中抽取的人数为52+3+5×200=100.5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,„,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[
451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为()A.7B.9C.10D.15解析:选C由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30k+9(k=0,1,„,31).由451≤30k+9≤750,解
得44230≤k≤74130,又k∈N,故k=15,16,„,24,共10人.216.一个总体中有600个个体,随机编号为001,002,„,600,利用系统抽样方法抽取容量为24的一个样本,总体分组后在第一组随机抽得的编号为006,则在编号为051~125之间抽得的编号为()A.05
6,080,104B.054,078,102C.054,079,104D.056,081,106解析:选D依题意可知,在随机抽样中,首次抽到006号,以后每隔60024=25个号抽到一个人,则构成以6为首项,25为公差的等差数列,即
所抽取的编号依次为006,031,056,081,106,131„„,故编号为051~125之间抽得的编号为056,081,106.故在编号为051~125之间抽到的编号为056,081,106.7.我国古代数学名著《九章算术》有“米谷粒分”题:发仓募粮,所募
粒中秕不百三则收之(不超过3%),现抽样取米一把,取得235粒米中夹秕n粒,若这批米合格,则n不超过()A.6粒B.7粒C.8粒D.9粒解析:选B由题意得,n235≤3%,解得n≤7.05,所以若这批米合格
,则n不超过7粒.8.某工厂在12月份共生产了3600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a,b,c,且a,b,c构成等差数列,则第二车间生产的产品数为()A.800双
B.1000双C.1200双D.1500双解析:选C因为a,b,c成等差数列,所以2b=a+c,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占12月份生产总数的三分之一,即为1200双皮靴.二、填空题9.某中学高一(8)班共有学生5
6人,编号依次为1,2,3,„,56,现用系统抽样的方法抽取一个容量为4的样本,已知6,20,48号的同学已在样本中,那么还有一个同学的编号为________.解析:56人中抽取样本容量为4的样本,则样本组距为56÷4=14,则6+14×2=34,故另外一个同学的编号为34.答案:
342210.(江苏高考)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.解析:应从丙种型号的产品中抽取60×30020
0+400+300+100=18(件).答案:1811.一个总体中有90个个体,随机编号0,1,2,„,89依从小到大的编号顺序平均分成9个小组,组号依次为1,2,3,„,9.现用系统抽样方法抽取一个容量为9的样本,规定如果在第1组
随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同,若m=8,则在第8组中抽取的号码是________.解析:由题意知,m=8,k=8,则m+k=16,也就是第8组抽取的号码个位数字为6,十位数字为8-1=7,故抽取的号码为76.答案:7612.某企业三个分厂生产同一种电子
产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取100件做使用寿命的测试,则第一分厂应抽取的件数为________;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为1020小时、9
80小时、1030小时,估计这个企业所生产的该产品的平均使用寿命为________小时.解析:第一分厂应抽取的件数为100×50%=50;该产品的平均使用寿命为1020×0.5+980×0.2+1030×0.3=1015.答案:501015三、解答题13.某校高中三年级的295名学生已经
编号为1,2,3,„,295,为了了解学生的学习情况,要按1∶5的比例抽取一个样本,用系统抽样的方法进行抽取,请写出抽样过程.解:按1∶5的比例抽样.295÷5=59.第一步,把295名同学分成59组,每组5人.第一组是编号为1~5的5名学生,第二组是编号为6~10的5名
学生,依次类推,第59组是编号为291~295的5名学生.第二步,采用简单随机抽样,从第一组5名学生中随机抽取1名,不妨设其编号为23k(1≤k≤5).第三步,从以后各段中依次抽取编号为k+5i(i=1,2,3,„,58)的学生,再加上从第一段中抽取的编号为
k的学生,得到一个容量为59的样本.14.重庆因夏长酷热多伏旱而得名“火炉”,八月是重庆最热、用电量最高的月份.下图是沙坪坝区居民八月份用电量(单位:度)的频率分布直方图,其分组区间依次为:[180,200),[200,220),[220,240),[240,260),[260,
280),[280,300),[300,320].(1)求频率分布直方图中的x;(2)根据频率分布直方图估计八月份用电量的众数和中位数;(3)在用电量为[240,260),[260,280),[280,3
00),[300,320]的四组用户中,用分层抽样的方法抽取11户居民,则用电量在[240,260)的用户应抽取多少户?解:(1)20×(0.002+0.0095+0.011+0.0125+x+0.005+0.0
025)=1,解得x=0.0075.(2)由于第四组[240,260)的频率最大,故众数为240+2602=250.第一组频率为0.04,第二组频率为0.19,第三组频率为0.22,第四组频率为0.2
5,所以中位数在第四组[240,260),故中位数为240+20×0.050.25=244.(3)因为[240,260),[260,280),[280,300),[300,320]四组的频率之比为0.25∶0
.15∶0.1∶0.05=5∶3∶2∶1,所以用电量在[240,260)的用户应抽取11×511=5户.1.已知某居民小区户主人数和户主对户型结构的满意率分别如图1和图2所示,为了解该小区户主对户型结构的满意程度,用分层抽样的方法抽取20%的户主进行调查,
则样本容量和抽取的户主对四居室满意的人数分别为()24A.100,8B.80,20C.100,20D.80,8解析:选A由图1可知,抽取20%的户主,可得样本容量为100,第四居室抽取了100×20%=20人,由满意率可得,抽取的户主对四居室满意的人数为20×40%=8.2.我国
古代数学算经十书之一的《九章算术》有一衰分问题:今有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣()A.104人B.108人C.112人D.120人解析:选B
由题意知,抽样比为3008100+7488+6912=175,所以北乡遣175×8100=108(人).高考研究课二样本估计总体[全国卷5年命题分析]考点考查频度考查角度频率分布直方图5年5考用频率估计概率、由直方图求方差、特征值茎叶图
5年2考茎叶图绘制、特征值估计图表5年2考柱状图、由图表数据分析茎叶图[典例](山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为()A.3,5B.5,5C.3,7
D.5,725[解析]由两组数据的中位数相等可得65=60+y,解得y=5,又它们的平均值相等,所以15×[56+62+65+74+(70+x)]=15×(59+61+67+65+78),解得x=3.[答案
]A[方法技巧]使用茎叶图时的2个注意点(1)观察所有的样本数据,弄清图中数字的特点,注意不要漏掉数据.(2)注意易混淆茎叶图中茎与叶的含义.[即时演练]1.如图所示的茎叶图是甲、乙两位同学在期末考试中的六科成绩,已知甲同学的平均成绩为85,乙同学的六科成绩的众数为84,则x,y的值为()A.2,
4B.4,4C.5,6D.6,4解析:选Dx-甲=75+82+84++x+90+936=85,解得x=6,由茎叶图可知y=4.2.为从甲、乙两人中选一人参加数学竞赛,老师将二人最近6次数学测试的分数进行统计,甲、乙两人的平均成绩分别是x甲,x乙,则下列说法正确的是()A.x甲>x乙,乙比
甲成绩稳定,应选乙参加比赛B.x甲>x乙,甲比乙成绩稳定,应选甲参加比赛C.x甲<x乙,甲比乙成绩稳定,应选甲参加比赛D.x甲<x乙,乙比甲成绩稳定,应选乙参加比赛解析:选D由茎叶图知x甲=72+78+79+85+86+9
26=82.x乙=78+86+88+88+91+936≈87.33.所以x甲<x乙,又由乙的茎集中在8,而甲较分散,即乙比甲成绩稳定.频率分布直方图[典例](北京高考)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,26使用分层抽样的方法从中随机抽取了100名学生,记录他们
的分数,将数据分成7组:[20,30),[30,40),„,[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,
50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.[解](1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率
为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计值为0.4.(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,
故样本中分数小于50的频率为0.1,故分数在区间[40,50)内的人数为100×0.1-5=5.所以总体中分数在区间[40,50)内的人数估计为400×5100=20.(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.[方法技巧]1.绘制频率分布直方
图时的2个注意点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确;(2)频率分布直方图的纵坐标是频率组距,而不是频率.272.与频率分布直方图有关的2个关系式(1)频率组距×组距=频率.(2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,
样本容量×频率=频数.[即时演练]1.(西安一检)某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],
则图中x的值等于()A.0.12B.0.012C.0.18D.0.018解析:选D依题意,0.054×10+10×x+0.01×10+0.006×10×3=1,解得x=0.018.2.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,
获得了某年100位居民每人的月均用水量(单位:吨).将数据按照[0,0.5),[0.5,1),„,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计
居民月均用水量的中位数.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)内的频率为0.08×0.5=0.04,同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]内的频率分别为0.08
,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=2a×0.5,解得a=0.30.(2)由(1)知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=280.12.由以上
样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300000×0.12=36000.(3)设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,而前4组的频率之和为0.04+0.08+0
.15+0.21=0.48<0.5,所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.样本的数字特征[典例]对划艇运动员甲、乙二人在相同
的条件下进行了6次测试,测得他们最大速度的数据如下:甲:27,38,30,37,35,31;乙:33,29,38,34,28,36.根据以上数据,试判断他们谁更优秀.[解]x甲=16(27+38+30+37+35+31)=33,x乙=16(33+29+38+34+28+36)=
33,s2甲=16[(27-33)2+(38-33)2+(30-33)2+(37-33)2+(35-33)2+(31-33)2]=16×94=1523,s2乙=16[(33-33)2+(29-33)2+(38-33)2+(34-33)2+(28-33)2+(36-33)2
]=16×76=1223.∴x甲=x乙,s2甲>s2乙.由此可以说明,甲、乙二人的最大速度的平均值相同,但乙比甲更稳定,故乙比甲更优秀.[方法技巧](1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,
越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.29(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.[即时演练]1.设样本数据x1,x2,„,x20的均值和方差分别为1和8,若
y=2x+3,则y1,y2,„,y20的均值和方差分别是()A.5,32B.5,19C.1,32D.4,35解析:选A∵yi=2xi+3,∴y=2x+3=2×1+3=5,方差s2=22×8=32.2.为了比较两种治疗失眠症的药(分别称为A
药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:0.61.22.71.52.81.82.22.33.23
.52.52.61.22.71.52.93.03.12.32.4服用B药的20位患者日平均增加的睡眠时间:3.21.71.90.80.92.41.22.61.31.41.60.51.80.62.11.12.51.22.70.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更
好?(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?解:(1)设A药观测数据的平均数为x-,B药观测数据的平均数为y-.由观测结果可得x-=120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+
2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y-=120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2
.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x->y-,因此可看出A药的疗效更好.30(2)由观测结果可绘制如下茎叶图:从以上茎叶图可以看出,A药疗效的试验结果有710的叶集中在茎2,3上,而B药疗效的试验结果有710的叶集中在茎0,1上,由此可看出A
药的疗效更好.1.(全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,„,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,„,xn的平均数B.x1,x2,„,xn的标准差C.x1,x
2,„,xn的最大值D.x1,x2,„,xn的中位数解析:选B标准差能反映一组数据的稳定程度.故选B.2.(全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数
据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳解析:选A根据折线图可知,2014年8月到9月、2014年10月到
11月等月接待游客量都在减少,所以A错误.由图可知,B、C、D正确.3.(全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃.下面叙述不正确的是()31A.各月的平均最低气
温都在0℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20℃的月份有5个解析:选D由图形可得各月的平均最低气温都在0℃以上,A正确;七月的平均温差约为10℃,而一月的平均温差约为5℃,故B正确;三月和十一月的平均最高气温都在10
℃左右,基本相同,C正确;平均最高气温高于20℃的月份只有2个,D错误.4.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国
治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析:选D对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正
确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧
化硫年排放量与年份负相关,故选D.5.(全国卷Ⅰ)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买
机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:32记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费
用(单位:元),n表示购机的同时购买的易损零件数.(1)若n=19,求y与x的函数解析式;(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买
易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?解:(1)当x≤19时,y=3800;当x>19时,y=3800+500(x-19)=500x-5700,所以y与x的函数解析式为y=3800,x≤19
,500x-5700,x>19(x∈N).(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有7
0台在购买易损零件上的费用为3800(元),20台的费用为4300(元),10台的费用为4800(元),因此这100台机器在购买易损零件上所需费用的平均数为1100(3800×70+4300×20+4800×10)=4000(元).若每台机器在购机同时都购
买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4000(元),10台的费用为4500(元),因此这100台机器在购买易损零件上所需费用的平均数为1100(4000×90+4500×1
0)=4050(元).比较两个平均数可知,购买1台机器的同时应购买19个易损零件.6.(全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次
抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.0433抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得x=116i=116xi=9.97
,s=116i=116xi-x2=116i=116x2i-16x2≈0.212,i=116i-2≈18.439,i=116(xi-x)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2
,„,16.(1)求(xi,i)(i=1,2,„,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出
现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x-3s,x+3s)
之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(xi,yi)(i=1,2,„,n)的相关系数r=i=1nxi-xyi-yi=1nxi-x
2i=1nyi-y2,0.008≈0.09.解:(1)由样本数据得(xi,i)(i=1,2,„,16)的相关系数为r=i=116xi-xi-i=116xi-x2i=116i-2=-2.780.212×16×18.439≈-0.18.由于|r|<0.25,
因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x-3s,x+3s)以外,因此需对当天的生产
过程进行检查.34②剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,所以这条生产线当天生产的零件尺寸的均值的估计值为10.02,i=116x2i=16×0.2122+16×9.972≈1591.134,剔
除第13个数据,剩下数据的样本方差为115(1591.134-9.222-15×10.022)≈0.008,所以这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.一、选择题1.(内江模拟
)某公司10个销售店某月销售某产品数量(单位:台)的茎叶图如下:分组成[11,20),[20,30),[30,39]时,所作的频率分布直方图是()解析:选B由直方图的纵坐标是频率/组距,排除C和D;又第
一组的频率是0.2,直方图中第一组的纵坐标是0.02,排除A,故选B.2.一个公司有8名员工,其中6名员工的月工资分别为5200,5300,5500,6100,6500,6600,另两名员工数据不清楚,那么8名员工月工资的中位数不可能是()A.5800B.6000C.6200D.
6400解析:选D由题意,把8名员工的工资由小到大排列,中位数为中间两数的平均值,若另两名员工的工资都低于5200时,则中位数为5300+55002=5400,若另两名员工的工35资都高于6600时,则中位数为6100+65002=6300.∴8
名员工工资的中位数的取值范围为[5400,6300],故员工工资的中位数不可能为6400.3.(长沙模拟)如图是民航部门统计的2017年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是()A.深圳的变化幅度最小,
北京的平均价格最高B.深圳和厦门的春运期间往返机票价格同去年相比有所下降C.平均价格从高到低居于前三位的城市为北京、深圳、广州D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门解析:选D由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应
的条形图最高,则北京的平均价格最高,故A正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误,选D.
4.某校对高三年级的学生进行体检,现将高三男生的体重(kg)数据进行整理后分成五组,并绘制频率分布直方图(如图所示).根据一般标准,高三男生的体重超过65kg属于偏胖,低于55kg属于偏瘦.已知图中从左到右第一、第三、第四、第五小组的频率分别为0.25,0.2,0.1,0.05,第二小组的
频数为400,则估计该校高三年级的男生总数和体重正常的频率分别为()A.1000,0.5B.800,0.5C.800,0.6D.1000,0.6解析:选D由已知得,第二小组的频率为1-0.25-0.2-0.1-0.05=0.4,所以该校
36高三年级的男生总数是4000.4=1000,体重正常的频率为0.4+0.2=0.6.5.某项测试成绩满分为10分,现随机抽取30名学生参加测试,得分如图所示,假设得分值的中位数为me,平均值为x,众数为m0,则()A.me=m0=xB.me=m0<xC.me<m0<xD.m0<me<x解析
:选D由图可知m0=5.由中位数的定义知应该是第15个数与第16个数的平均值,由图知将数据从小到大排,第15个数是5,第16个数是6,所以me=5+62=5.5.x=130(3×2+4×3+5×10+
6×6+7×3+8×2+9×2+10×2)≈5.97>5.5,所以m0<me<x,故选D.6.(山西大学附中诊断测试)已知样本(x1,x2,„,xn)的平均数为x,样本(y1,y2,„,ym)的平均数为y(x≠y),若样本(x1,x2,„,xn,y1,y2,„,ym)的平均数z=
ax+(1-a)y,其中0<a<12,则n,m的大小关系为()A.n<mB.n>mC.n=mD.不能确定解析:选A由题意可得x=x1+x2+„+xnn,y=y1+y2+„+ymm,z=x1+x2+„+xn+y
1+y2+„+ymn+m=nn+m·x1+x2+„+xnn+mn+m·y1+y2+„+ymm37=nn+m·x+mn+m·y=ax+(1-a)y,所以nn+m=a,mn+m=1-a,又0<a<12,所以0<nn+m<12<mn+m,故n<m.二、填空题7.如图是甲、乙两名篮球运动员
在五场比赛中所得分数的茎叶图,则在这五场比赛中得分较为稳定(方差较小)的那名运动员的得分的方差为________.解析:根据茎叶图中的数据知乙的得分波动性小,较为稳定(方差较小),乙的平均数为x=15×(8
+9+10+13+15)=11.则乙得分的方差为s2=15×[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=345.答案:3458.学校为了解学生的上学的距离,随机抽取50名学生,调查他们的
居住地与学校的距离d(单位:km).若样本数据分组为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],由数据绘制的频率分布直方图如图所示,则样本中学生与学校的距离不超过4km的人数为________.解析:由
图知,样本中学生与学校的距离不超过4km的频率为0.1×2+0.14×2=0.48,则样本中学生与学校的距离不超过4km的人数为50×0.48=24.答案:249.(安徽名校模拟)一个样本容量为10的样本数据,它们组成一个公差不为0的等差数38列{a
n},若a3=8,且a1,a3,a7成等比数列,则此样本的平均数是________,中位数是________.解析:设等差数列{an}的公差为d(d≠0),因为a3=8,a1a7=(a3)2=64,所以(8-2d)(8+4d)=64,(4-d)(2+d)
=8,2d-d2=0,又d≠0,所以d=2,故样本数据为4,6,8,10,12,14,16,18,20,22,平均数为S1010=+10=13,中位数为12+142=13.答案:1313三、解答题10.(南昌一模)某校高一某
班的某次数学测试成绩(满分为100分)的茎叶图和频率分布直方图都受了不同程度的破坏,但可见部分如图,据此解答下列问题:(1)求分数在[50,60]的频率及全班人数;(2)求分数在[80,90]的频数,并计算频率分布直方图中[80,90]间的矩形的高.解:(1)分数在[50,60]的频率为0.008
×10=0.08.由茎叶图知,分数在[50,60]之间的频数为2,所以全班人数为20.08=25.(2)分数在[80,90]的频数为25-2-7-10-2=4,频率分布直方图中[80,90]间的矩形的高为425÷10=0.016.11.某市为了了解今年高中毕业生的体能状况,从本市某高中毕业班中抽
取了一个班进行铅球测试,成绩在8.0m(精确到0.1m)以上的为合格,把所得数据进行整理后,分成6组画出条形图(如图),已知从左到右前5个小组的频率分别为0.04,0.10,0.14,0.28,0.30,第6小组的频数是7.(1)求这次铅球测试成绩合格的人数;(2)若从第1小组和第2小组中随机抽
取两个人的测试成绩,则两个人的测试成绩来自同39一个组的概率为多少?解:(1)第6小组的频率为1-(0.04+0.10+0.14+0.28+0.30)=0.14,则此次测试总人数为70.14=50,又第4,5,6组成绩均合格,所以合格的人数为50×(0.28+0.30+0.14)=3
6.(2)由(1)易得第1小组含2个样本,第2小组含5个样本,将第1小组的学生成绩编号为a1,a2,将第2小组的学生成绩编号为b1,b2,b3,b4,b5,从第1,2小组中随机取两个人的测试成绩的所有基本事件共有21个:(a1,a2),(a1,b1),(a1,b2),(
a1,b3),(a1,b4),(a1,b5),(a2,b1),(a2,b2),(a2,b3),(a2,b4),(a2,b5),(b1,b2),(b1,b3),(b1,b4),(b1,b5),(b2,b3),(b2,b4),(b2,b5),(b3,
b4),(b3,b5),(b4,b5),而且这些基本事件是等可能出现的.用A表示“两个人的测试成绩来自同一组”这一事件,则A包含的基本事件有11个,所以P(A)=1121.12.某城市为满足市民的出行需要和节能环保的要求,在公
共场所提供单车共享服务,某部门为了对共享单车进行更好的监管,随机抽取了20位市民对共享单车的情况进行了问卷调查,并根据其满足度评分值制作了茎叶图如下:(1)分别计算男性打分的中位数和女性打分的平均数;(2)从打分在80分以下(不含80分)
的市民中抽取3人,求有女性被抽中的概率.解:(1)由茎叶图可知,男性打分的中位数为80+822=81.女性打分的平均数为110(77+78+80+83+85+88+89+92+97+99)=86.8.(2)由茎叶图可知,80分以下的市民共有6人,其中男性4人,记作A,B,C,D,女性2人,
记作a,b,从6人中抽取3人所构成的基本事件空间为:{ABC,ABD,ABa,ABb,ACD,ACa,ACb,ADa,ADb,Aab,BCD,BCa,BCb,BDa,BDb,Bab,CDa,CDb,Cab,Dab},共20个基本
事件,其中“有女性被抽中”包含的基本事件有:{ABa,ABb,ACa,ACb,ADa,ADb,Aab,BCa,BCb,BDa,BDb,Bab,CDa,CDb,Cab,40Dab},共16个基本事件,所以从打分在80分以下(不含80分)的市
民中抽取3人,有女性被抽中的概率P=1620=45.某校对高三年级的学生进行体检,现将高三男生的体重(单位:kg)数据进行整理后分成六组,并绘制频率分布直方图(如图).已知图中从左到右第一、第六小组的频率分别为0.16,0.07,第一、第二、第三小组的频率成等比数列,第三、
第四、第五、第六小组的频率成等差数列,且第三小组的频数为100,则该校高三年级的男生总数为________人.解析:设第三小组的频率为x,等比数列的公比为q,等差数列的公差为d,则0.16=xq2,x+3d=0.07,0.16+
xq+x+x+d+x+2d+0.07=1.解得q=1.25,x=0.25,因为第三小组的人数为100,所以该校高三年级的男生总数为1000.25=400人.答案:400高考研究课三变量间的相关关系、统计案例[全国卷5年命题分
析]考点考查频度考查角度回归分析5年4考求回归方程及其应用统计案例5年2考独立性检验的应用问题相关关系的判断[典例](1)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()41A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<
r3<r1D.r2<r4<0<r1<r3(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关[解析](
1)由相关系数的定义,以及散点图所表达的含义可知r2<r4<0<r3<r1.(2)因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=b^y+a^,b^>0,则z=b^y+a^=-0.
1b^x+b^+a^,故x与z负相关.[答案](1)A(2)C[方法技巧]相关关系的判断的2种方法(1)散点图法.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.[即时演练]1.下列四个散点图中,变量x与
y之间具有负的线性相关关系的是()42解析:选D观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.2.(湖北七市联考)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y
轴的单位长度相同),用回归直线方程y^=b^x+a^近似地刻画其相关关系,根据图形,以下结论最有可能成立的是()A.线性相关关系较强,b的值为1.25B.线性相关关系较强,b的值为0.83C.线性相关关系较强,b的值为-0.87D.线性相关关系较弱,无研究价值解析:选B由散点图可以看出两个变量所构
成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B.线性回归分析[典例]如表提供了某厂节能降耗技
术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据x3456y2.5344.5参考公式:b^=i=1nxiyi-nx·yi=1nx2i-nx2,a^=y-b^x.(1)请根据上表提供的数据,
用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(2)已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?[解](1)∵x=14×(3+4+5+6)=4.5,43y=14×(2.5+3+4
+4.5)=3.5,i=14x2i=32+42+52+62=86,i=14xiyi=3×2.5+4×3+5×4+6×4.5=66.5,∴b^=66.5-4×4.5×3.586-4×4.52=0.7,∴a^=y-b^x=3.5-0.7×4.5=0.35,∴
所求线性回归方程为y^=0.7x+0.35.(2)当x=100时,y^=0.7×100+0.35=70.35,∴90-70.35=19.65(吨),故预测生产100吨甲产品的生产能耗比技术改造前降低了19.65吨标准煤.[方法技巧](1)正确理解计算b
^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y=b^x+a^必过样本点中心(x,y).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.[即时演练]1.已知两组数据
x,y的对应值如下表,若已知x,y线性相关且线性回归方程为y^=b^x+a^,经计算知:b^=-1.4,则a^=()x45678y1210986A.-0.6B.0.6C.-17.4D.17.4解析:选Dx=4+5+6+7+85=
6,y=12+10+9+8+65=9.线性回归方程为y^=b^x+a^,必经过点(x,y),即9=-1.4×6+a^,解得a^=17.4.2.在某化学反应的中间阶段,压力保持不变,温度从1°变化到5°,反应结果如
下表所示(x代表温度,y代表结果):44x12345y3571011(1)求化学反应的结果y对温度x的线性回归方程y^=b^x+a^;(2)判断变量x与y之间是正相关还是负相关,并预测当温度达到10°时反应结果为多少?附:线性回归方程
y^=b^x+a^中,b^=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x.解:(1)由题意知,x=15(1+2+3+4+5)=3,y=15(3+5+7+10+11)=7.2,且
i=15x2i=12+22+32+42+52=55,i=15xiyi=3×1+2×5+3×7+4×10+5×11=129,∴b^=i=15xiyi-5xyi=15x2i-5x2=129-5×3×7.255-5×32=2.1,a^=y-
b^x=7.2-2.1×3=0.9,故所求的回归方程为y^=2.1x+0.9.(2)由于变量y的值随温度x的值增加而增加(b^=2.1>0),故x与y之间是正相关.当x=10时,y^=2.1×10+0.9=21.9.独立性检验[典例](沈阳模拟)为考查某种疫
苗预防疾病的效果,进行动物实验,得到统计数据如下:未发病发病总计45未注射疫苗20xA注射疫苗30yB总计5050100现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x,y,A,B的值;(2)绘制发病率的条形统计图,并判断疫苗是否有效?(3)
能够有多大把握认为疫苗有效?附:K2=nad-bc2a+ba+cc+db+d,n=a+b+c+d.P(K2≥k0)0.050.010.0050.001k03.8416.6357.87910.828[解](1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”
为事件E,由已知得P(E)=y+30100=25,所以y=10,B=40,x=40,A=60.(2)未注射疫苗发病率为4060=23,注射疫苗发病率为1040=14.作出发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率,且注射疫苗的发病率小,故判断疫苗有效.(3)K2=-250×50
×40×60=503≈16.667>10.828.所以至少有99.9%的把握认为疫苗有效.[方法技巧]解独立性检验的应用问题的关注点(1)两个明确46①明确两类主体;②明确研究的两个问题.(2)两个关键①准确画出2×2列联表;②准确计算K
2.[提醒]准确计算K2的值是正确判断的前提.[即时演练]已知某班n名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在[90,100]内的有6人.(1
)求n的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:P(K2≥k0)0.100.050.0100.0
05k02.7063.8416.6357.879K2=nad-bc2a+bc+da+cb+d解:(1)依题意得+0.025+c+2b+a=1,2b=a+c,解得b=0.01.因为成绩在[90,100]内的有6
人,所以n=60.01×10=60.(2)由于2b=a+c,而b=0.01,可得a+c=0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x人,则男生有x-4
人,于是x+x-4=48,解得x=26,故及格的人中,女生有26人,男生有22人.于是本次测试的及格情况与性别的2×2列联表如下:及格不及格总计男22830女26430总计48126047结合列联表计算可得K2=-230×30×48×12=1.667<
2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.1.(全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其
频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较
.附:P(K2≥k)0.0500.0100.001k3.8416.63510.828K2=nad-bc2a+bc+da+cb+d.解:(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0
.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表:48箱产量<50kg箱产量≥50kg旧养殖法6238新养殖法3466根据表中数据及
K2的计算公式得,K2=-2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50kg到55kg之间,旧
养殖法的箱产量平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.2.(全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线
图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:i=17yi=9.32,i=17tiyi=40.17,i=17yi-y2=0.55,7≈2.64
6.参考公式:相关系数r=i=1nti-tyi-yi=1nti-t2i=1nyi-y2,回归方程y^=a^+b^t中斜率和截距的最小二乘估计公式分别为b^=i=1nti-tyi-yi=1nti-t2,a^=y-b^t.49解:(1)由折线图中的数据和附注中的参考数据得t=4,i=1
7(ti-t)2=28,i=17yi-y2=0.55,i=17(ti-t)(yi-y)=i=17tiyi-ti=17yi=40.17-4×9.32=2.89,∴r≈2.890.55×2×2.646≈0.9
9.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.(2)由y=9.327≈1.331及(1)得b^=i=17ti-tyi-yi=17ti-t2=2.8928≈0.103.a^=y-b^t≈1.331-0.103
×4≈0.92.所以y关于t的回归方程为y^=0.92+0.10t.将2016年对应的t=9代入回归方程得y^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年
宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,„,8)数据作了初步处理,得到下面的散点图及一些统计量的值.50xywi=18(xi-x)2i=18(wi-w)2i=18(xi
-x)(yi-y)i=18(wi-w)(yi-y)46.65636.8289.81.61469108.8表中wi=xi,w=18i=18wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回
归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报
值最大?附:对于一组数据(u1,v1),(u2,v2),„,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β^=i=1nui-uvi-vi=1nui-u2,α^=v-β^u.解:(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的
回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.由于d^=i=18wi-wyi-yi=18wi-w2=108.81.6=68,c^=y-d^w=563-68×6.8=100.6,所以y关于w的线性回归方程y^=100.6+68w,因此y关于x的回归方程为y^=10
0.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.51②根据(2)的结果知,年利润
z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.一、选择题1.根据如下样本数据得到的回归方程为y^=b^x+a
^,若a^=5.4,则x每增加1个单位,y就()x34567y42.5-0.50.5-2A.增加0.9个单位B.减少0.9个单位C.增加1个单位D.减少1个单位解析:选B由题意可得x=15(3+4+5+6+7)=5,y=15(4+2.5
-0.5+0.5-2)=0.9,∵回归方程为y^=b^x+a^,a^=5.4,且回归直线过点(5,0.9),∴0.9=5b^+5.4,解得b^=-0.9,∴x每增加1个单位,y就减少0.9个单位.2.已知x与y之间的几组数据如下表:x1234
56y021334假设根据上表数据所得线性回归直线方程为y^=b^x+a^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是()A.b^>b′,a^>a′B.b^>b′,a^<a′C.b^<b′,a^>a′D.b^<b′
,a^<a′解析:选C过(1,0)和(2,2)的直线方程为y=2x-2,画出六点的散点图,回归直线的大概位置如图所示,显然b^<b′,a^>a′.故选C.3.(山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名
学生,根据测量数据的散点图52可以看出y与x之间有线性相关关系,设其回归直线方程为y^=b^x+a^,已知i=110xi=225,i=110yi=1600,b^=4.该班某学生的脚长为24,据此估计
其身高为()A.160B.163C.166D.170解析:选C由题意可知y^=4x+a^,又x=22.5,y=160,因此160=22.5×4+a^,解得a^=70,所以y^=4x+70.当x=24时,y^=4×24+70=166.4.为了解高中生对电视台某节目的态
度,在某中学随机调查了110名学生,得到如下列联表:男女总计喜欢402060不喜欢203050总计6050110由K2=nad-bc2a+bc+da+cb+d,得K2=-260×50×60×50≈7.82
2.附表:P(K2≥k0)0.050.010.001k03.8416.63510.828参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”B.在犯错误的概率不
超过0.1%的前提下,认为“喜欢该节目与性别无关”C.有99%以上的把握认为“喜欢该节目与性别有关”D.有99%以上的把握认为“喜欢该节目与性别无关”解析:选C根据K2的值,对照附表可得P(K2≥k0)≈0.01,所以有99%以上的把握认为“喜欢该节目与
性别有关”.5.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且回归方程为y^=0.6x+1.2.若某城市职工人均工资为5千元,53估计该城市人均消费额占人均工资收入的百分比为()A.66%B.67
%C.79%D.84%解析:选D∵y与x具有线性相关关系,满足回归方程y^=0.6x+1.2,该城市居民人均工资为x=5,∴可以估计该城市的职工人均消费水平y=0.6×5+1.2=4.2,∴可以估计该城市人均消费额
占人均工资收入的百分比为4.25=84%.6.某研究机构对儿童记忆能力x和识图能力y进行统计分析,得到如下数据:记忆能力x46810识图能力y3568由表中数据,求得线性回归方程为y^=45x+a^,若某儿童的记忆能力为12,则他的识图能力为()A.7B.9.5C.10D.12解析:选B由表中数
据得x=4+6+8+104=7,y=3+5+6+84=112,由(x,y)在直线y^=45x+a^上,得a^=-110,即线性回归方程为y^=45x-110.当x=12时,y^=45×12-110=9.5,即他的识图能力为9.5.二、填空题7.(阜阳质
检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总计喜欢玩电脑游戏12820不喜欢玩电脑游戏2810总计141630该班主任据此推断男生认为作业多与喜欢玩电脑游戏
有关系,则这种推断犯错误的概率不超过________.解析:计算得K2的观测值k=-214×16×20×10≈4.286>3.841,则推断犯错误的概率不超过0.05.答案:0.058.某品牌牛奶的广告费
用x与销售额的统计数据如下表:广告费用x(万元)423554销售额y(万元)49263954根据上表可得回归方程y^=b^x+a^中的b^为9.4,据此模型预报广告费用为7万元时销售额为________万元.解析:因为x=4+2+3+54=72,y=49+26+39+544
=42,由题意可得回归方程为y^=9.4x+a^,因为回归直线一定经过样本点中心(x,y)所以42=9.4×72+a^,解得a^=9.1,所以回归方程为y^=9.4x+9.1,当x=7时,销售额为y=9.4×7+9.1=74.9(万元).答案
:74.99.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程和相关系数r,分别得到以下四个结论:①y=2.347x-6.423,且r=-0.9284;②y=-3.476x+5.648,且r=-0.9533;③y=5.437x+8
.493,且r=0.9830;④y=-4.326x-4.578,且r=0.8997.其中不正确的结论的序号是________.解析:对于①,y=2.347x-6.423,且r=-0.9284,线性回归方程符合正相关的特征,r>0,∴①错误;对于
②,y=-3.476x+5.648,且r=-0.9533,线性回归方程符合负相关的特征,r<0,∴②正确;对于③,y=5.437x+8.493,且r=0.9830,线性回归方程符合正相关的特征,r>0,∴③正确;对于④,y=-4.326x-4.5
78,且r=0.8997,线性回归方程符合负相关的特征,r<0,④错误.综上,①④错误.答案:①④三、解答题10.(惠州调研)在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为551∶3,且成绩分布在[40,100],分
数在80以上(含80)的同学获奖.按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示.(1)求a的值,并计算所抽取样本的平均值x(同一组中的数据用该组区间的中点值作代表);(2)填写下面的2×2
列联表,并判断在犯错误的概率不超过0.05的前提下能否认为“获奖与学生的文、理科有关”.文科生理科生总计获奖5不获奖总计200附表及公式:P(K2≥k0)0.100.050.0250.0100.0050.001k
02.7063.8415.0246.6357.87910.828K2=nad-bc2a+bc+da+cb+d.解:(1)a=110×[1-(0.01+0.015+0.03+0.015+0.005)×10]=0.025,x=
45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69.(2)由频率分布直方图知样本中获奖的人数为40,不获奖的人数为160,2×2列联表如下:文科生理科生总计
获奖53540不获奖45115160总计50150200因为K2=-240×160×50×150≈4.167>3.841,所以在犯错误的概率不超过0.05的前提下能认为“获奖与学生的文、理科有关”.11.某农科所对冬季昼夜温差大小与某反季节大
豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:56日期12月1日12月2日12月3日12月4日12月5日温差x(℃)10111312
8发芽数y(颗)2325302616该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻的2天数据的概率;(2)若选取的是12月1日
与12月5日的两组数据,请根据12月2日至12月4日的数据,求y关于x的线性回归方程y^=b^x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否
可靠?(附:对于一组数据(x1,y1),(x2,y2),„,(xn,yn),其回归直线y^=b^x+a^的斜率和截距的最小二乘估计分别为b^=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x.)解:(1)设抽到不相邻两组数据为事件A,因为从5组数据中选取2组数据共有10种情况
,每种情况是等可能出现的,其中抽到相邻两组数据的情况共有4种,所以P(A)=1-410=35,故选取的2组数据恰好是不相邻的2天数据的概率为35.(2)由数据,求得x=13×(11+13+12)=12,y=13×(25+30+
26)=27,i=13xiyi=11×25+13×30+12×26=977,i=13x2i=112+132+122=434,57所以b^=i=13xiyi-3x·yi=13x2i-3x2=977-3×12×27434-3×122=52,a^=27-52×12=-3.所以回归直线方程
为y^=52x-3.(3)当x=10时,y^=22,|22-23|<2,同理当x=8时,y^=17,|17-16|<2.所以该研究得到的线性回归方程是可靠的.某公司为了准确把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销量y(单位:万件)之间的关系如表所示:x123
4y12284256(1)在图中画出表中数据的散点图;(2)根据(1)中的散点图拟合y与x的回归模型,并用相关系数加以说明;(3)建立y关于x的回归方程,预测第5年的销售量约为多少?参考数据:i=14yi-y2≈32.66,5≈2.24,i=14xiyi=418.参考公式:相关系
数r=i=1nxi-xyi-yi=1nxi-x-2i=1nyi-y-2,回归方程y^=a^+b^x中斜率58和截距的最小二乘法估计公式分别为b^=i=1nxi-x-yi-y-i=1nxi-x-2=i=1nxiyi-nx-y-i=1nx2i-nx-2,a^=y-b^x-.解:(
1)作出散点图如图所示.(2)由(1)的散点图可知,各点大致分布在一条直线附近,由题中所给数据及参考数据得:x=52,y=692,i=14x2i=30,i=14yi-y2≈32.66,i=14(xi-x)(yi
-y)=i=14xiyi-xi=14yi=418-52×138=73,i=14xi-x2=i=14x2i-4x2=30-4×522=5≈2.24,∴r=i=14xi-xyi-yi=14xi-x2i=14yi-y2=732.24×32
.66≈0.9978.∵y与x的相关系数近似为0.9978,说明y与x的线性相关程度相当大,∴可以用线性回归模型拟合y与x的关系.(3)由(2)知,i=14xiyi-4xy=73,i=14x2i-4x2=5,∴b^=735,a^=y-b^x=692-735×5
2=-2,故y关于x的回归直线方程为y^=735x-2.59当x=5时,y^=735×5-2=71,∴第5年的销售量约为71万件.