【文档说明】(新高考数学)高考一轮复习核心考点讲与练考点28《 统计》(解析版) .doc,共(39)页,1.414 MB,由MTyang资料小铺上传
转载请保留链接:https://www.ichengzhen.cn/view-29515.html
以下为本文档部分文字说明:
考点28统计(核心考点讲与练)一、抽样与统计图表1.获取数据的基本途径获取数据的基本途径包括:统计报表和年鉴、社会调查、试验设计、普查和抽样、互联网等.(1)统计报表是指各级企事业、行政单位按规定的表格形式、内容、时间要求报送程序,
自上而下统一布置,提供统计资料的一种统计调查方式.(2)年鉴是以全面、系统、准确地记述上年度事物运动、发展状况为主要内容的资料性工具书.汇辑一年内的重要时事、文献和统计资料,按年度连续出版的工具书.2.总体、样本、样本容量要考察的对
象的全体叫做总体,每一个考察对象叫做个体,从总体中被抽取的考察对象的集体叫做总体的一个样本,样本中个体的数目叫做样本容量.3.简单随机抽样(1)定义:从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体
有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.(3)应用范围:总体中的个体数较少.4.分层抽样(1)定义:在抽样时,将总体中各个个体按某种特征
分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.5.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距
=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图(如图)横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.6.频率分布折线图和总体密
度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑曲线,统计中称这条光滑曲
线为总体密度曲线.7.样本的数字特征数字特征定义众数在一组数据中,出现次数最多的数据叫做这组数据的众数中位数将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数平均数样本数据的算术平均数,即x-=x1+x2+…+
xnn方差s2=1n[(x1-x-)2+(x2-x)2+…+(xn-x)2],其中s为标准差8.百分位数如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数.可表示为:一组n个观测值按数值大小排列.如,处于p%位置的值称第p百分位数.二、
统计案例1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2
.回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归直线
方程的求法——最小二乘法.设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程y^=a^x+b^的系数为:称为样本点的中心.(3)相关系数①计算相关系数r,r
有以下性质:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱;②|r|>r0.05,表明有95%的把握认为变量x与y之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.3.独立性检验(1)2×2列联表BB-总计An11n12n
1+An21n22n2+总计n+1n+2n其中n1+=n11+n12,n2+=n21+n22,n+1=n11+n21,n+2=n12+n22,n=n11+n21+n12+n22.(2)χ2统计量χ2=n(n11n22-n12n21)2n1+n2+n+1n+2.(3)两个临界值:3.84
1与6.635当χ2>3.841时,有95%的把握说事件A与B有关;当χ2>6.635时,有99%的把握说事件A与B有关;当χ2≤3.841时,认为事件A与B是无关的.1.解决分层抽样的常用公式先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽
取的个体数.(1)抽样比==;(2)层1的容量∶层2的容量∶层3的容量=样本中层1的容量∶样本中层2的容量∶样本中层3的容量.2.统计图表人类辨识影像的能力要优於辨识文字与数字的能力,因此我们采用图形的方式
来展现数据时,常常不我们直接观察数据要来的快.3.平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度
越小,越稳定.4.独立性检验的一般步骤①根据样本数据制成2×2列联表;②根据公式K2=2nadbcabcdacbd计算K2的值;③查表比较K2与临界值的大小关系,作出统计判断.抽样1.(2022·福建莆田·三模)已知某校有教职工560人,其中女职工240人,现按性别用分层抽样的方法从该校教职
工中抽取28人,则抽取的男职工人数与抽取的女职工人数之差是()A.2B.4C.6D.8【答案】B【分析】根据分层抽样的抽取比例计算方法,分别求出抽取人数中的男女职工人数即可求解.【详解】抽取的女职工人数为:2402812560人抽取的男职工人数为:
281216人则抽取的男职工人数与抽取的女职工人数之差为:16124人故选:B.2.(2022·安徽·芜湖一中三模(文))某学校对高三年级800名学生进行系统抽样编号分别为001,002,…,800
,若样本相邻的两个编号为028,068,则样本中编号最大的为()A.778B.780C.782D.788【答案】D【分析】根据样本中两个相邻编号求出组距和分组数,再根据系统抽样方法即可求出样本编号最大的一个.【详解】∵样本相邻的两个编号为02
8和068,故组距为68-28=40,由800÷40=20知样本容量为20,系统抽样时分为20组:001-040,041-080,…,760-800,∵从第1组抽出的数据为028,∴从第20组抽出的数据为760+28=788.故选:D.3.(2021北京市通州区高三上期中)
某单位有男职工56人,女职工42人,按性别分层,用分层随机抽样的方法从全体职工中抽出一个样本,如果样本按比例分配,男职工抽取的人数为16人,则女职工抽取的人数为()A.12B.20C.24D.28【答案】A【分析】根据题意,结合分层抽样的计算方法,即可求解.【详解】根据题意,
设抽取的样本人数为n,因男职工抽取的人数为56165642n,所以28n,因此女职工抽取的人数为281612(人).故选:A.4.(多选题)(2022·福建南平·三模)支气管炎患者会咳嗽失眠,给患者日常生活带来严重的影响.某医院老年患
者治愈率为20%,中年患者治愈率为30%,青年患者治愈率为40%.该医院共有600名老年患者,500名中年患者,400名青年患者,则()A.若从该医院所有患者中抽取容量为30的样本,老年患者应抽取12人B.该医院青年患者所占的频率为4
15C.该医院的平均治愈率为28.7%D.该医院的平均治愈率为31.3%【答案】ABC【分析】由分层抽样即可判断A选项;直接计算频率即可判断B选项;直接计算平均治愈率即可判断C、D选项.【详解】对于A,由分层抽样可得,老年
患者应抽取6003012600500400人,正确;对于B,青年患者所占的频率为400460050040015,正确;对于C,平均治愈率为60020%50030%40040%28.7%600500400
,正确;对于D,由C知错误.故选:ABC.统计图表1.(2021广东省广雅中学高三上10月月考)小张一星期的总开支分布如图①所示,一星期的食品开支如图②所示,则以下说法正确的是()A.储蓄金额为300元B.
日常开支比食品中的其他开支多150元C.娱乐开支比通信开支多50元D.肉类开支占总开支的13【答案】ABC【分析】根据图表信息一一分析可得;【详解】解:由食品开支图,可知食品开支有30401008050300元,所以一星期的总开支30030%1000元,
其中储蓄金额为100030%300元,故A正确;日常开支为100020%200元,故日常开支比食品中的其他开支多150元,故B正确;娱乐开支比通信开支多100010%5%50元,故C正确;肉类开支占总开支的1100100010,故D错误;
故选:ABC2.(2021四川省资阳市高三第一次诊断)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019年年末全国农村贫困人口数进行了统计,制成如下散点图
:据此散点图,下面4个回归方程类型中最适宜作为年末贫困人数y和年份代码x的回归方程类型的是()A.yabxB.byaxC.exyabD.lnyabx【答案】A【分析】结合散点图中点的分布特征即可得出结果.【详解】由散点图可知所有的点几乎分布在一条直线上,结合选
项可知选A,故选:A.3.(2021广东省部分学校高三上11月大联考)中国互联网络信息中心(CNNIC)发布了第46次《中国互联网络发展状况统计报告》,报告公布了截至2020年6月的中国互联网状况数据
与对比数据,根据下图,下面结论不正确的是()A.2020年6月我国网民规模接近9.4亿,相比2020年3月新增网民3625万B.2020年6月我国互联网普及率达到67%,相比2020年3月增长2.5%C.2018年12月我国互联网普及率不到60%,经过半
年后普及率超过60%D.2018年6月我国网民规模比2017年6月我国网民规模增加的百分比大于7%【答案】D【分析】结合图表直接判断和计算即可.【详解】对A,由图可知,新增网民数为:93984903593625万,正确;对B,读图可直接判断正确;对
C,读图可直接判断正确;对D,2018年6月我国网民规模比2017年6月我国网民规模增加的比例为:8016675116505050501010.0677%7511675116750001500,故D错误.故选:D4.(2021山西省长治市第八中学高三上阶段性测评)随着2022
年北京冬奥会临近,中国冰雪产业快速发展,冰雪运动人数快速上升,冰雪运动市场需求得到释放,将引领相关户外用品行业市场增长.下面是2013年至2020年中国雪场滑雪人次(万人次)与同比增长率(与上一年相比)的统计情况,则下面结论中正确
的是()A.2013年至2020年,中国雪场滑雪人次的同比增长率逐年减少B.2013年至2020年,中国雪场滑雪人次逐年增加C.2013年至2020年,中国雪场滑雪人次的年增加量相近D.2013年到2020年,中国雪场滑雪人次在2020年首次出现负增长【答案】D【分析】根据图中条形统计图和折线图
的实际意义分析逐个判定即可.【详解】对于A,由折线图可知,2013年至2020年,中国雪场滑雪人次的同比增长率先增长再减小,故A错误;对于B,由条形统计图知,2013年至2019年,中国雪场滑雪人次逐年
增加,但2020年减少了,故B错误;对于C,由条形图知,2013年至2020年,中国雪场滑雪人次的年增加量不相近,故C错误;对于D,由条形图和折线图,明显看出2013年到2020年,中国雪场滑雪人次在2020年首次出现负增长,故D正确.故选:D5.(2021河南省重点中学高三上模拟调研)
茶叶源于中国,至今中国仍然是茶叶最大生产国,下图为20192020年全球主要茶叶生产国调查数据.20192020年全球主要茶叶生产国产量分布根据该图,下列结论中不正确的是()A.2019年图中5个国家茶叶产量的中位数为45.9B.2020年图中5个国家茶叶产量比2019年增幅最大的是中国
C.2020年图中5个国家茶叶总产量超过2019年D.2020年中国茶叶产量超过其他4个国家之和【答案】B【分析】根据统计图表提供的数据判断各选项.【详解】图中,2019年的数据中间的一个是45.9,A正确;2020年图中5个国家茶
叶产量比2019年增幅最大的是肯尼亚10100%45.9,B错;2020年图中5个国家茶叶总产量比2019年总产量的差是18.713.4112114.40,C正确;2020年图中125.656.92827.8238.3298.6,D正确,故选:B.样本的数字
特征1.(2021江苏苏州模拟)高铁、扫码支付、共享单车、网购并称中国“新四大发明”,近日对全国100个城市的共享单车和扫码支付的使用人数进行大数据分析,其中共享单车使用的人数分别为x1,x2,x3,…
,x100,它们的平均数为x,方差为s2;其中扫码支付使用的人数分别为3x1+2,3x2+2,3x3+2,…,3x100+2,它们的平均数为,TMxT方差为s′2,则,TMxTs′2分别为()A.3x+2,3s2+2B.3x,3s2C.3x+2,9s2D.3x+2,9
s2+2【答案】C【解析】由平均数的计算公式,可得数据x1,x2,…,x100的平均数为x=1100(x1+x2+x3+…+x100),数据3x1+2,3x2+2,…,3x100+2的平均数为:1100[(3x1+2)+(3x2+2)+…+(3x100+2)]=1100[
3(x1+x2+…+x100)+2×100]=3x+2,数据x1,x2,…,x100的方差为s2=1100[(x1-x)2+(x2-x)2+…+(x100-x)2],数据3x1+2,3x2+2,…,3x100+2的方
差为:1100{[(3x1+2)-(3x+2)]2+[(3x2+2)-(3x+2)]2+…+[(3x100+2)-(3x+2)]2}=1100[9(x1-x)2+9(x2-x)2+…+9(x100-x)2]=9s2,故选C.2.(2021河南省湘豫名校联盟高三上
11月联考)某校为了解学生体能素质,随机抽取了50名学生,进行体能测试.并将这50名学生成绩整理得如下频率分布直方图.根据此频率分布直方图.下列结论中不正确的是()A.这50名学生中成绩在80,100内的人数占比为20%B.这
50名学生中成绩在60,80内的人数有26人C.这50名学生成绩的中位数为70D.这50名学生的平均成绩68.2x(同一组中的数据用该组区间的中点值做代表)【答案】C【分析】利用频率分布直方图求解判断.【详解】根据此频率分布直方图
,成绩在80,100内的频率为0.0080.0121020(.)0,所以A正确;这50名学生中成绩在60,80内的人数为0.0320.020105026,所以B正确;根据此频率分布直方图,0.0080.02100.28
0.5(),0.0080.020.032100.()60.5,可得这50名学生成绩的中位数60,70,所以C错误﹔根据频率分布直方图的平均数的计算公式,可得:450.08550.2650.32750.2850.12950.0868.2,x
+所以D正确.故选:C.线性回归方程1.(多选题)(2021山东师范大学附中高三上期中)已知变量x,y之间的经验回归方程为ˆ7.60.4yx,且变量x,y的数据如表所示,则下列说法正确的是()x681012y
6m32A.变量x,y之间呈正相关关系B.变量x,y之间呈负相关关系C.m的值等于5D.该回归直线必过点9,4【答案】BCD【分析】将样本点中心代入回归直线方程,得出m的值,再逐一判断即可.【详解】681012632119,444mmxy因为7.60.4yx
,所以117.60.49,54mm,故C正确;因为0.40,所以变量x,y之间呈负相关关系,故A错误,B正确;因为(,)(9,4)xy,所以该回归直线必过点9,4,故D正确;故选:BCD2.(2021福建省宁德市高三上期中联考)某电子产品的
成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本,进行5次试验,收集到的数据如表:产品数x个1020304050产品总成本(元)6268a8189由最小二乘法得到回归方程ˆ0.6754.9yx,则a=__
_________.【答案】75【分析】根据线性回归方程过样本中心点进行求解即可.【详解】1020304050305x,62688189600.25aya,因为线性回归方程过样本中心点,所以600.20.673054.975aa
,故答案为:753.(“超级全能生”2022届高三全国卷地区11月联考)自动驾驶汽车依靠5G、人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让电脑可以在没有任何人类主动的操作下,自动安全地操作机动车辆.近年来全球
汽车行业达成共识,认为自动驾驶代表了未来汽车行业的发展方向.实现自动驾驶是一个渐进过程,国际通用的自动驾驶标准根据自动驾驶程度逐步提升可以分为5级.3L级自动驾驶也是整个自动驾驶技术的分水岭.20162020年全球3L渗透率(%)统计表及散
点图如下.年份20162017201820192020渗透率(%)0.20.40.61.01.4(1)利用散点图判断,yabt和dyct(其中'c,d为大于0的常数)哪一个更适合作为渗透率y和年份t的
回归方程模型(只要给出判断即可,不必说明理由);(2)令2018xt,求y关于x的回归方程;(3)根据(2)中回归模型回答下列问题:(i)估计2022年全球3L渗透率是多少?(ii)预计至少要到哪一年,全球3L渗透率能超过10%?附:回归直线中斜率和截距的最小二
乘估计公式为1122211nniiiiiinniiiixxyyxynxybxxxnx,aybx.【答案】(1)yabt更适合(2)0.30.72yx(3)(i)1.92%;(ii)2049【分析】(
1)根据散点图,即可得到yabt更适合作为渗透率y和年份t的回归方程模型;(2)由2018xt,得5组的对应数据,利用公式,求得ˆˆ,ba的值,即可得到回归方程;(3)(i)2022t,求得1.92y,即可得到2022年全球
3L渗透率;(ii)令0.30.7210yx,即可求得到2049年,全球3L渗透率能超过10%.【小问1详解】解:根据散点图,可知yabt更适合作为渗透率y和年份t的回归方程模型.【小问2详解
】解:由2018xt,得5组的对应数据为2,0.2,1,0.4,0,0.6,1,1.0,2,1.4,所以0x,0.72y,513iiixy,52110iix,所以5152213500.720.310502iiiiixynxybxn
x,则0.720.300.72aybx,所以y关于x的线性回归方程为0.30.72yx.【小问3详解】解:(i)令2022t,可得202220184x,此时0.340.721.92y,所以估计2022年全球3L渗透率是1.92%.(
ii)令0.30.7210yx,解得30.931x,3120182049t,所以预计至少要到2049年,全球3L渗透率能超过10%.独立性检验1.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过
随机询问100名性别不同的居民是否能做到“光盘”行动,得到列联表:分类做不到“光盘”能做到“光盘”男4510女3015由此列联表得到的正确结论是()A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到„光盘‟与性别有关”B.在犯错误的概率不超过1%的前提下,
认为“该市居民能否做到„光盘‟与性别无关”C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到„光盘‟与性别有关”D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到„光盘‟与性别无关”【答案】C【分析】作出列联表,求得2K,再与临界值表对比判断.【详解】列联表如下:分类做
不到“光盘”能做到“光盘”总计男451055女301545总计7525100所以22100451510303.0302.70675255545K,且22.7060.10pK,所以在犯错误的概率不超过0.1的前提下,认为“该市居民
能否做到„光盘‟与性别有关”.故选:C2.单位:人学校数学成绩合计不优秀0Y优秀1Y甲校0X331043乙校1X38745合计711788对列联表中的数据,依据0.1的独立性检验,我们已经知道独立性检
验的结论是学校和成绩无关.如果表中所有数据都扩大为原来的10倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的关联性,结论还一样吗?请你试着解释其中的原因.附:临界值表:0.10.050.010.0050.001x2.706
3.8416.6357.87910.828【分析】列出数据扩大10倍的22列联表,计算出2的观测值,结合独立性检验的基本思想可出结论.【详解】数据扩大10倍的22列联表为:学校数学成绩合计不优秀0Y优秀
1Y甲校0X330100430乙校1X38070450合计710170880假设0:H学校与数学成绩无关,由列联表数据得22880330703801008.3652.706430450710170,根据小概率值0.1的独立性检验,我们推断
假设0H不成立,即认为学校与数学成绩有关,又因为甲校成绩优秀和不优秀的概率分别为1000.2326430,3300.7674430,乙校成绩优秀和不优秀的概率分别为700.1556450,3800.8444
450,又因为0.23260.1556,所以,从甲校、乙校各抽取一个学生,甲校学生数学成绩优秀的概率比乙校学生优秀的概率大.所以,结论不一样,不一样的原因在于样本容量,当样本容量越大时,用样本估计总体的准确性
会越高.1.(2021年全国高考甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是()A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.
该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间【答案】C【分析】根据直方图的意义直
接计算相应范围内的频率,即可判定ABD,以各组的中间值作为代表乘以相应的频率,然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.【详解】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应
比率的估计值.该地农户家庭年收入低于4.5万元的农户的比率估计值为0.020.040.066%,故A正确;该地农户家庭年收入不低于10.5万元的农户比率估计值为0.040.0230.1010%,故B正确;该地农户家庭年
收入介于4.5万元至8.5万元之间的比例估计值为0.100.140.2020.6464%50%,故D正确;该地农户家庭年收入的平均值的估计值为30.0240.0450.1060.1470.2080.2090.10100.10110.04120.
02130.02140.027.68(万元),超过6.5万元,故C错误.综上,给出结论中不正确的是C.故选:C.【点睛】本题考查利用样本频率直方图估计总体频率和平均值,属基础题,样本的频率可作为总体的频率的估计值,样本的平均值的估计值是各
组的中间值乘以其相应频率然后求和所得值,可以作为总体的平均值的估计值.注意各组的频率等于频率组距组距.2.(2020年全国统一高考(新课标Ⅰ))某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种
子发芽实验,由实验数据(,)(1,2,,20)iixyi得到下面的散点图:由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.yabxB.2yabxC.exyabD.lnya
bx【答案】D【分析】根据散点图的分布可选择合适的函数模型.【详解】由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y和温度x的回归方程类型的是lnyabx.故选:D.【点睛】本题考查函数模型的选择,主要观察散点图的分布,属于基
础题.3.(多选题)(2021年全国新高考Ⅰ卷)有一组样本数据1x,2x,…,nx,由这组数据得到新样本数据1y,2y,…,ny,其中iiyxc(1,2,,),inc为非零常数,则()A.两组样本数据的样本平均数相
同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样本数据的样本极差相同【答案】CD【分析】A、C利用两组数据的线性关系有()()EyExc、()()DyDx,即可判断正误;根据中位数、极差的定义,结合已知线性关系可判断B、D的正误.【详解】A:()()(
)EyExcExc且0c,故平均数不相同,错误;B:若第一组中位数为ix,则第二组的中位数为iiyxc,显然不相同,错误;C:()()()()DyDxDcDx,故方差相同,正确;D:由极差的定义知:若第
一组的极差为maxminxx,则第二组的极差为maxminmaxminmaxmin()()yyxcxcxx,故极差相同,正确;故选:CD4.(2021年全国高考乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备
和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备9.810.310.010.29.99.810.010.110.29.7新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品
的该项指标的样本平均数分别记为x和y,样本方差分别记为21s和22s.(1)求x,y,21s,22s;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果2212210ssyx,则认为新设备生产产品的该项指
标的均值较旧设备有显著提高,否则不认为有显著提高).【答案】(1)221210,10.3,0.036,0.04xyss;(2)新设备生产产品的该项指标的均值较旧设备有显著提高.【分析】(1)根据平均数和方差的计算方法,计算
出平均数和方差.(2)根据题目所给判断依据,结合(1)的结论进行判断.【详解】(1)9.810.31010.29.99.81010.110.29.71010x,10.110.410.11010.110.310.610.510.410.510.310y
,22222222210.20.300.20.10.200.10.20.30.03610s,222222222220.20.10.20.30.200.30.20.10.20.0410s.(2)依题意,20.
320.1520.1520.0225yx,0.0360.04220.007610,2212210ssyx,所以新设备生产产品的该项指标的均值较旧设备有显著提高.5.(2021年全国高考甲卷)甲、乙两台机床生产同种产品,产
品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多
少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()nadbcKabcdacbd2PKk0.0500.0100.001k3.8416.63510.828【答案】(1)75%;60%;(2)能.【分析】根据给
出公式计算即可【详解】(1)甲机床生产的产品中的一级品的频率为15075%200,乙机床生产的产品中的一级品的频率为12060%200.(2)224001508012050400106.63527013020020039K
,故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.6.(2020年全国统一高考(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相
近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得20160iix,201120
0iiy,2021)80iixx(,2021)9000iiyy(,201))800iiixyxy((.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘
以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r=12211)))
)niiiiinniixyxxyyyx((((,≈1.414.【答案】(1)12000;(2)0.94;(3)详见解析【分析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;(2)利用公式2012
0202211()()()()iiiiiiixxyyrxxyy计算即可;(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.【详解】(1)样区野生动物平均数为201111200602020iiy,地块数为2
00,该地区这种野生动物的估计值为2006012000(2)样本(,)iixy(i=1,2,…,20)的相关系数为20120202211()()800220.943809000()()iiiiiiixxyyrxxyy
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更
准确的估计.【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,是一道容易题.一、单选题1.(2022·湖南岳阳·三模)已知一组数据:123,,xxx的平均数是5,方差是4,则由121x,221x,321x+
和11这四个数据组成的新数据组的方差是()A.16B.14C.12D.11【答案】C【分析】根据平均数、方差公式计算可得;【详解】解:由已知得12315xxx,222123(5)(5)(5)12xxx,则新数据的平均数为1231232()3111(21212111)
1144xxxxxx,所以方差为22221231[(2111)(2111)(2111)(1111)]4xxx,2222221231231[4(5)4(5)4(5)](5
)(5)(5)124xxxxxx,故选:C.2.(2022·辽宁辽阳·二模)为了解某地高三学生的期末语文考试成绩,研究人员随机抽取了100名学生对其进行调查,根据所得数据制成如图所示的频率分布直方图,已知不低于90分为及格,则这100名学生期末语文成绩的及格率为()A
.40%B.50%C.60%D.65%【答案】C【分析】利用直方图求频率即得.【详解】依题意可得及格率为1200.0060.0140.660%.故选:C.3.(2022·天津河北·二模)为了解中学生的身高情况,某部门随机抽取了某学校的学牛,将他们的身高数据
(单位:cm)按[150,160),[160,170),[170,180),[180,190]分组,绘制成如图所示的频率分布直方图,其中身高在区间[170,180)内的人数为300,身高在区间[160,170)内的人数为180,则a的值为()A.0.03B.0.
3C.0.035D.0.35【答案】A【分析】由频率分布直方图中的数据,以及频率与频数之间的关系,列式求解即可.【详解】由频率分布直方图可得:3001800.05a,解得a=0.03.故选:A4.(2022·天津一
中模拟预测)某校随机抽取了400名学生进行成绩统计,发现抽取的学生的成绩都在50分至100分之间,进行适当分组画出频率分布直方图如图所示,下列说法正确的是()A.直方图中x的值为0.040B.在被抽取的学生中,成绩在区间70,
80的学生数为30人C.估计全校学生的平均成绩为84分D.估计全校学生成绩的样本数据的80%分位数约为93分【答案】C【分析】根据学生的成绩都在50分至100分之间的频率和为1可求得x值,以此判断A;计算成绩在区间[70,80)的学生频率,然后可计算该区间学生数,以此判断B;按
照频率频率分布直方图中平均数计算公式计算可判断C;按照频率分布直方图中百分位数的计算方法计算可判断D.【详解】定义A:根据学生的成绩都在50分至100分之间的频率和为1,可得100.0050.010.0150.0401x
,解得x=0.03,所以A错;对于B:在被抽取的学生中,成绩在区间[70,80)的学生数为10×0.015×400=60(人),所以B错;对于C:估计全校学生的平均成绩为55×0.05+65×0.
1+75×0.15+85×0.3+95×0.4=84(分),所以C对;对于D:全校学生成绩的样本数据的80%分位数约为0.29010950.4(分).所以D错.故选:C二、多选题5.(2022·山东日照·模拟预测)我国居民收入与经济同步
增长,人民生活水平显著提高.“三农”工作重心从脱贫攻坚转向全面推进乡村振兴,稳步实施乡村建设行动,为实现农村富强目标而努力,2017年~2021年某市城镇居民、农村居民年人均可支配收入比上年增长率如下图所示
,根据下面图表、下列说法一定正确的是()A.对于该市居民年人均可支配收入比上年增长率的极差,城镇比农村的小B.该市农村居民年人均可支配收入高于城镇居民C.对于该市居民年人均可支配收入比上年增长率的中位数,农村比城镇的大D.2021年该市
城镇居民、农村居民年人均可支配收入比2020年有所上升【答案】CD【分析】根据表中数据逐一判断即可.【详解】对于A:由表中数据可知城镇居民相关数据极差较大,即选项A错误;对于B:由增长率高,得不出收入高,即选项B错误;对于C:由表中数据,可知农村居民相关数据中位数较大,即选
项C正确;对于D:由表中数据,可知增长率均为正,所以2021年该市城镇居民、农村居民年人均可支配收入比2020年有所上升,即选项D正确.故选:CD.6.(2022·湖南岳阳·三模)下列说法正确的是()A.线性回归方程ybxa$$$必过(,)xyB.设具有线性相关关系的两个变量x,y的相
关系数为r,则r越接近于0,x和y之间的线性相关程度越强C.在一个22列联表中,由计算得2K的值,则2K的值越小,判断两个变量有关的把握越大D.若2~1,XN,20.2PX,则010.3PX【
答案】AD【分析】根据线性回归方程的特征、相关系数的性质、卡方的意义,结合正态分布的性质逐一判断即可.【详解】因为线性回归方程ybxa$$$必过样本中心点(,)xy,所以选项A正确;因为r越接近于0,x和y之间的线性相关程度越弱,所以选项B不正确;因为2K的值越小,确定
两个变量有关的把握的程度越小,所以选项C不正确;因为2~1,XN,所以1011220.32PXPXPX,因此选项D正确,故选:AD7.(2022·重庆南开中学模拟预测)下列命题正确的是()A.若2~1,XN且
30.76PX,则110.24PXB.对于随机事件A和B,若PABPA,则事件A与事件B独立C.回归分析中,若相关指数2R越接近于1,说明模型的拟合效果越好;反之,则模型的拟
合效果越差D.用等高条形图粗略估计两类变量X和Y的相关关系时,等高条形图差异明显,说明X与Y无关【答案】BC【分析】A由正态分布的对称性求概率;B利用条件概率公式转化判断;C、D根据相关指数的实际意义、等高条形图的性质
判断【详解】A:由(3)130.24PxPX,根据正态分布对称性110.50.240.26PX,错误;B:由题意()()PABPABPAPB,即()()PAPAPBB,故事件A与事件B独立,正确;C:相关指数的实际意义知:相关指数
2R越接近于1,说明模型的拟合效果越好;反之,则模型的拟合效果越差,正确;D:由等高条形图与列联表关系,差异明显表明X与Y相关可能很大,错误.故选:BC8.(2022·湖北·荆门市龙泉中学一模)疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性
生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:未发病发病总计未注射疫苗30注射疫苗40总计7030100附表及公式:20PKk0.050.010.0050.0010k3.8
416.6357.87910.82822nadbcKabcdacbd,nabcd.现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断正确的是()A
.注射疫苗发病的动物数为10B.某个发病的小动物为未注射疫苗动物的概率为23C.能在犯错概率不超过0.005的前提下,认为疫苗有效D.该疫苗的有效率约为80%【答案】ABD【分析】完善列联表可直接判断A,计算比例后判断BD,计算2K判断C.【详解】完
善列联表如下:未发病发病总计未注射疫苗302050注射疫苗401050总计7030100由列联表知,A正确,202303,B正确,22100(30104020)4.762(3.841,6.635)70305050K,不能在犯错概率不超过0.0
05的前提下,认为疫苗有效,C错误;疫苗的有效率约为4080%50,D正确.故选:ABD.三、填空题9.(2022·福建龙岩·模拟预测)已知变量y关于x的回归方程为0.5ebxy,若对0.5ebxy两边取自然对数,可以发现lny与x线
性相关,现有一组数据如下表所示,5x时,预测y值为___________.x1234ye3e4e6e【答案】152e【分析】对0.5ebxy两边取对数,得ln0.5ybx令lnzy则0.5zbx
,利用对称中心点在函数图象上即得1.6b,进而确定解析式,求出预测值.【详解】对0.5ebxy两边取对数,得ln0.5ybx令lnzy则0.5zbxx1234ye3e4e6ez1346123413462.5,3.544xz
代入05ˆ.zbx得3.52.50.5ˆb故1.6b故1.60.5zx,1.60.5exy当5x时,151.650.52eey故答案为:152e四、解答题10.(2022·广东·普宁市华侨中学二模)某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,
已知土地的使用面积x与相应的管理时间y的关系如下表所示:土地使用面积x(单位:亩)12345管理时间y(单位:月)811142423调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示;愿意参与管理不愿意参与管理男
性村民14060女性村民40(1)做出散点图,判断土地使用面积x与管理时间y是否线性相关;并根据相关系数r说明相关关系的强弱.(若0.75r,认为两个变量有很强的线性相关性,r值精确到0.001).(2)若以该村的村民的性别与参与管理意风的情况估计贫困县的
情况,且每位村民参与管理的意互不影响,则从该贫困县村民中任取3人,记取到不愿意参与管理的女性村民的人数为X,求X的分布列及数学期望.参考公式:12211niiinniiiixxyyrxxyy参考数据:2116
,206,51522.7niiyyy【分析】(1)由已知数据做出散点图,根据散点图可判断出土地使用面积x与管理时间y是否线性相关,计算出相关系数r可判断出两个变量是否有很强的线性相关性;(2)记取到不愿意参与管理的女性村民的人
数为X,求出X的取值可得分布列及数学期望.(1)散点图如上图,由散点图可知,土地使用面积x与管理时间y线性相关.因为1234535x,16y,51281502182743
iiixxyy,522222212101210iixx,521206iiyy,所以相关系数515522114343430.9470
.7545.5102062515iiiiiiixxyyrxxyy,故土地使用面积x与管理时间y线性相关性很强.(2)由题意可知,调查300名村民中不愿意参与管理的女性村民人数300140406060名,从该贫困县村
民中任取一人,取到不愿意参与管理得到女性村民的概率为6013005,X的所有可能取值为0,1,2,3,3034640C5125PX,21341481C55125PX,22314122C5512
5PX,333113C5125PX,X的分布列X0123P6412548125121251125数学期望6448121301231251251251255EX.11.(2022·湖南·雅礼中学二模)“不关注分数,就是对学生的今天不
负责:只关注分数,就是对学生的未来不负责.”为锻炼学生的综合实践能力,长沙市某中学组织学生对雨花区一家奶茶店的营业情况进行调查统计,得到的数据如下:月份x24681012净利润(万元〕y0.92.04.23.95.25.1(1)设ln,iiiixvx.试建立y关于x的非线性
回归方程lnyaxb和ymxn(保留2位有效数字);(2)从相关系数的角度确定哪一个模型的拟合效果更好,并据此预测次年2月(14x计)的净利润(保留1位小数).附:①相关系数12211()()())()niiinniiiixxyyrxxyy
,回归直线ˆˆˆybxa中斜率和截距的最小二乘估计公式分别为121()()ˆˆˆ,()niiiniixxyybaybxxx;②参考数据:ln20.7,ln31.1,ln51.6,ln71.9,21.4,62.4,82.
8,103.2,123.5,143.7,332257.6,458367.7【答案】(1)2.5ln0.95yx和2.11.8yx;(2)模型2.5ln0.95yx的拟合效果更好,次年2月
净利润为5.6万元【分析】(1)根据数据和公式直接计算可得;(2)根据数据和公式计算出相关系数即可求出.(1)ln2ln4ln6ln8ln10ln12610ln22ln3ln51.86,0.924.23
.95.25.13.556y,61()()1.12.650.41.5500.650.30.350.51.650.71.555.55iiiyy,622222221()1.10.400.30.5
0.72.2ii,所以616215.55)2.52(.)2(()iiiiiayy,3.552.51.80.95b,所以模型lnyaxb的方程为2.5ln0.95yx,246810122.5
56v,61()()1.152.650.551.550.150.650.250.350.651.650.951.556.435iiivvyy,
622222221()1.150.550.150.250.650.953.035iivv,所以3.063.45352.1m,3.552.12.551.8n,所以模型ymx
n的方程为;(2)2.11.8yx622222221()2.651.550.650.351.651.5515.1iiyy,所以15.555.555.550.9645.762.215.133.22r,26.4356.4356.4
350.9516.773.03515.145.83r,因为1r更接近1,所以模型2.5ln0.95yx的拟合效果更好,则次年2月净利润为2.5ln140.955.6y万元.12.(2022·重庆南开中学模拟预测)公众号“
山城学术圈”根据统计局统计公报提供的数据,对我国2015—2021年的国内生产总值GDP进行统计研究,做出如下2015—2021年GDP和GDP实际增长率的统计图表.通过统计数据可以发现,GDP呈现逐年递增趋势.2020年,GDP增长率出现较明显降幅,但GDP却首
次突破100万亿.现统计人员选择线性回归模型,对年份代码x和年度实际GDP增长率(%)y进行回归分析.年份2015年2016年2017年2018年2019年2020年2021年年度GDP(亿元)688858.2746
395.1832035.9919281.1986515.21015986.21143669.7年份代码x1234567GDP实际增长率%y7.06.86.96.76.02.38.1(1)用第1到第7年的数据得到年度实际GDP增长率
%y关于年份代码x的回归方程近似为:0.247.22yx,对该回归方程进行残差分析,得到下表,视残差e的绝对值超过1.5的数据为异常数据.年份代码x1234567GDP实际增长率%y7.06.86.96.76.02.38.1GDP增长率估计值y6.9
86.506.266.025.54残差e0.020.400.74-0.022.56将以上表格补充完整,指出GDP增长率出现异常数据的年份及异常现象,并根据所学统计学知识,结合生活实际,推测GDP增长率
出现异常的可能原因;(2)剔除(1)中的异常数据,用最小二乘法求出回归方程:ybxa$$$,并据此预测数据异常年份的GDP增长率.附:1122211nniiiiiinniiiixxyyxynxybxxxnx,aybx$$【分析】(
1)根据实际GDP增长率%y关于年份代码x的回归方程近似为:0.247.22yx和残差的定义求解;(2)先求得,xy,进而得到,ba,写出回归直线方程求解.(1)解:年份代码x1234567GDP实际
增长率%y7.06.86.96.76.02.38.1GDP增长率估计值y6.986.746.506.266.025.785.54残差e0.020.060.400.74-0.02-3.482.56由视残差e的绝对
值超过1.5的数据为异常数据,则2020年份估计值远远大于实际值,2021年份估计值远远小于实际值,由于2020年疫情经济受到很大的影响,实际增长下滑,2021年份,国家采取措施,刺激经济增长;(2)因为11123453,7.06.86.96.76.06.6855xy
,511726.836.946.75698.1iiixy,52222211234555iix,所以5152221598.1536.680.2155535iiiiixyxybxx
,6.680.2137.31aybx$$,所以回归直线方程为0.217.31yx$,当6x时,6.05y$,当7x时,5.94y$.13.(2022·辽宁·二模)第2
4届冬季奥林匹克运动会于2022年2月4日在北京开幕.吉祥物“冰墩墩”以其可爱的外形迅速火爆出圈,其周边产品更是销售火热,甚至达到“一墩难求”的现象某购物网站为了解人们购买“冰墩墩”的意愿,随机对90个用户(其中男30人,女60人)进行问卷调查,得到如下列联表和条形图:有购
买意愿没有购买意愿合计男女合计如果从这90人中任意抽取1人,抽到“有购买意愿”的概率为23.(1)完成上述22列联表,并回答是否有95%的把握认为“购买意愿”与“性别”有关?(2)若以这90个用户的样本的概率估计总体的概率,现再从该购物网站所有用户中,采用随机抽样的方法每次抽取1名用户,抽
取4次,记被抽取的4名用户对“冰墩墩”有购买意愿的人数为X,若每次抽取的结果是相互独立的,写出X的分布列,并求期望和方差.参考公式:22()()()()()nadbcKabcdacbd,其中nabcd
.临界值表:20PKk0.100.050.0100.0050.0010k2.7063.8416.6357.87910.828【答案】(1)列联表见解析,没有95%的把握认为“购买意愿”与“性别”有关;(2)分布列见解析,8()3EX,8(
)9DX.【分析】(1)根据已知条件写出列联表,利用卡方公式求卡方值并与参考值比较,根据独立检验的基本思想判断结论;(2)由题设有X的可能值为{0,1,2,3,4}且2~4,3XB,利用二项分布概率公式求各可能值的
概率,进而写出分布列,应用二项分布的期望方差公式求期望和方差.(1)由题意,有购买意愿的人数为290603人,列联表如下:有购买意愿没有购买意愿合计男161430女441660合计603090则2290(16161444)3.63.8
4130606030K,所以没有95%把握认为“购买意愿与性别”有关.(2)由题意,抽取到对“冰墩墩有购买意愿”的概率是23,X的可能值为{0,1,2,3,4}且2~4,3XB,40310144121128
(0),(1)33813381PXCPXC,22132344122481232(2),(3)3381273381PXCPXC
,04441216(4)3381PXC,从而X的分布列为X01234P18188182732811681期望为28()433EXnp,方差为228()(1)41339DXnpp.14.(2022·福
建福州·三模)某种疾病可分为A,B两种类型,为了解该疾病的类型与患者性别是否相关,在某地区随机抽取了若干名该疾病的患者进行调查,发现女性患者人数是男性患者的2倍,男性患A型疾病的人数占男性患者的56,女性患A
型疾病的人数占女性患者的13.(1)若本次调查得出“在犯错误的概率不超过0.005的前提下认为„所患疾病的类型‟与„性别‟有关”的结论,求被调查的男性患者至少有多少人?(2)某团队进行预防A型疾病的疫苗的研发试验,试验期间至多安排2个周期接种疫
苗,每人每个周期接种3次,每次接种费用为0mm元.该团队研发的疫苗每次接种后产生抗体的概率为01pp,如果一个周期内至少2次出现抗体,则该周期结束后终止试验,否则进人第二个周期.若23p,试验人数为1000人,试估计该试验用于接种疫苗的总费用.22nad
bcKabcdacbd,20PKk0.100.050.010.0050.0010k2.7063.8416.6357.87910.828【答案】(1)12人(2)340009m元【分析】(1)设男性患者有x人,可得出22列联表,计算出卡方值,列出不等式可求解;(2)可得
该试验每人的接种费用可能取值为3m,6m,求出概率即可得出.(1)设男性患者有x人,则女性患者有2x人,22列联表如下:A型病B型病合计男56x6xx女23x43x2x合计32x32x3x假设0H:患者所患疾病类
型与性别之间无关联,根据列联表中的数据,经计算得到22542326363333222xxxxxxKxxxx,要使在犯错误的概率不超过0.005的前提下认为“所患疾病类型”与“性别”有关,则27.8793x,解得11.8185x,因为
6xZ,3xZ,所以x的最小整数值为12,因此,男性患者至少有12人.(2)设该试验每人的接种费用为元,则的可能取值为3m,6m.则2233233C123Pmppppp,326123
Pmpp,所以32323232361233232Emppmppmpp,因为23p,试验人数为1000人,所以该试验用于接种疫苗的总费用为1000E,即32223400010003232339mm
元.15.(2022·辽宁·二模)某初中为了了解学生对消防安全知识的掌握情况,开展了网上消防安全知识考试.对参加考试的男生、女生各随机抽查40人,根据考试成绩,得到如下列联表:男生女生合计考试成绩合格302050考试成绩不合格102030合计404080(1)根据上面的列联表,判断
能否有95%的把握认为考试成绩是否合格与性别有关;(2)在考试成绩不合格的30人中按性别利用分层抽样的方法随机抽取6人,再从这6人中随机抽取3人,记这3人中男生的人数为X,求X的分布列和数学期望.附22nadbcabcdacbd,
其中nabcd.2()Pk0.10.050.010.0050.001k2.7063.8416.6357.87910.828【答案】(1)有95%的把握认为考试成绩是否合格与性别有关;(2)分布列见解析,1【分析】(1)直接计算2,再和
3.841比较即可;(2)先由分层抽样计算出男女生人数,再分别计算X为0,1,2的概率,列出分布列计算期望即可.(1)由2280(30201020)165.333.841404030503..故有95%的把握认为考
试成绩是否合格与性别有关;(2)考试成绩不合格的30人,男生:女生为1:2,这6个中男生有2人,女生有4人,可得X的可能取值为0,1,2,有3436C1(0)C5PX,214236CC3(1)C5P
X,1242361(2)5CCCPX,故随机变量X的分布列为X012P153515有1310121.555EX