【文档说明】R_数据处理、绘图、编程与统计检验解析课件.ppt,共(88)页,1.459 MB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-45432.html
以下为本文档部分文字说明:
1语言介绍数据处理、绘图、编程与统计检验2什么是R?TheRProjectforStatisticalComputingR是一种统计绘图语言,也指实现该语言的软件•1995年由新西兰Auckland大学统计系的RobertGentleman
和RossIhaka,基于S语言的源代码,编写了一能执行S语言的软件,并将该软件的源代码全部公开,这就是R软件,其命令统称为R语言•从S统计绘图语言演变而来,可看作S的“方言”!!免费、软件本身及程序包的源代码公开。3R登陆界面(Windows版)路径:开始>所有
程序>R2.11.0菜单栏快捷按钮控制台光标:等待输入4R程序包(RPackages)程序包是什么?R程序包是多个函数的集合,具有详细的说明和示例。Window下的R程序包是经过编译的zip包。每个程序包包含R函数、数据、帮助文件、描
述文件等。为什么要安装程序包?R程序包是R功能扩展,特定的分析功能,需要用相应的程序包实现。例如:系统发育分析,常用到ape程序包,群落生态学vegan包等。5常用R程序包(I)ade4利用欧几里得方法进
行生态学数据分析adephylo系统进化数据挖掘与比较方法ape系统发育与进化分析apTreeshape进化树分析bootBootstrap检验cluster聚类分析ecodist生态学数据相异性分析FD功能多样
性分析geiger物种形成速率与进化分析6常用R程序包(II)picante群落系统发育多样性分析raster栅格数据分析与处理seqinrDNA序列分析sp空间数据处理spatstat空间点格局分析,模型拟合与检验splancs空间与时空点格局分析statsR统计学包Biocond
uctor生物学数据分析工具vegan植物与植物群落的排序,生物多样性计算7安装程序包的方法1用函数install.packages(),如果已经连接到互联网,在括号中输入要安装的程序包名称,选择镜像后,程序将自动下载并安装程序包。例如:要安装pi
cante包,在控制台中输入install.packages("picante")2安装本地zip包路径:Packages>installpackagesfromlocalfiles选择本地磁盘上存储z
ip包的文件夹。8程序包使用程序包的中函数,都要先导入,再使用,因此导入程序包是第一步。在控制台中输入如下命令:library(affy)程序包内的函数的用法与R内置的基本函数用法一样。library(affy)9查看函数的帮助文件函数的默认值是什么?怎么使用?使用时需要注意什么问题?需要查询函数
的帮助。1?t.test2RGui>Help>Htmlhelp3apropos("t.test")4help("t.test")5help.search("t.test")6查看R包pdf手册10二函数与对
象11R的函数R是一种解释性语言,输入后可直接给出结果。功能靠函数实现。函数形式:函数(输入数据,参数=)如果没有指定,则参数的以默认值为准。例如:平均值mean(x,trim=0,na.rm=FALSE,...)线性模型lm(y~x,data=tes
t)12R的函数每一个函数执行特定的功能,后面紧跟括号,例如:平均值mean()求和sum()绘图plot()排序sort()除了基本的运算之外,R的函数又分为”高级”和”低级”函数,高级函数可调用低级函数,这里的”高级”函
数习惯上称为泛型函数。如plot()就是泛型函数,可以根据数据的类型,调用底层的函数,应用相应的方法绘制相应的图形。这就是面向对象编程的思想。13R有哪些函数?查询的方法:Help>Htmlhelp>packageslog()log10()exp()sin()cos()tan()a
sin()acos()binom.test()fisher.test()chisq.test()glm(y~x1+x2+x3,binomial)friedman.test()mean()sd()var()….14R函数调用及其选项箱线图绘制函数的调用boxplot(day~ty
pe,data=bac,col="red",xlab="Virus",ylab="days")day~type,以type为横轴,day为纵轴绘制箱线图。data=bac数据来源baccol=“red”箱线图为红色xlab=“Virus”横轴名称为Virusylab=“day
s”纵轴名称为days15赋值与注释在控制台中键入如下命令2+2a<-2<-也可用=,甚至->代替b<-2c<-a+bc#注释赋值符号16>1+1[1]2>1+1*7[1]8>(1+1)*7[1]14>x<-1>x[1]1>y=2>y[1]2>3->z>z[1]3>(
x+y)*z[1]9Math:Variables:17>x<-c(0,1,2,3,4)>x[1]01234>y<-1:5>y[1]12345>z<-1:50>z[1]123456789101112131415[16]16171819202122232425262728293
0[31]313233343536373839404142434445[46]4647484950Arrays:18运算符数学运算运算后给出数值结果+,-,*,/,^(幂)比较运算运算后给出判别结果(T
RUEFALSE)>,<,<=,>=,==,!=逻辑运算与、或、非!,&,&&,|,||19外部数据读取最为常用的数据读取方式是用read.table()函数或read.csv()函数读取外部txt或csv格式的文件。txt文件,制表符间隔c
sv文件,逗号间隔一些R程序包(如foreign)也提供了直接读取Excel,SAS,dbf,Matlab,spss,systat,Minitab文件的函数。例:test.data<-read.csv(
"D:/R/test2.csv",header=T)header=T表示将数据的第一行作为标题。read.table(file=file.choose(),header=T)可以弹出对话框,选择文件。20例:从数据输入到t检验编号123456身高m1.751.801.651.901
.741.91体重kg607257909572表2六名患者的身高和体重现有6名患者的身高和体重,检验体重除以身高的平方是否等于22.5。21第一种方式:从控制台输入数据数据量较少时可以从控制台直接输入:height<-c(1.75,1.80,1.65,1.90,1.7
4,1.91)weight<-c(60,72,57,90,95,72)sq.height<-height^2ratio<-weight/sq.heightt.test(ratio,mu=22.5)22图14在Excel中将数据存为txt文件23例:t检验(续)一般从txt文档读取
数据。每一行作为一个观测值。每一行的变量用制表符,空格或逗号间隔开。read.table(”位置”,header=T)read.csv(”位置”,header=T)#从外部读取数据data1<-read.table("d:/t.test.data.txt",header=T)bmi<-da
ta1$weight/data1$height^2t.test(bmi,mu=22.5)#t检验24向量的创建四种类型的向量字符型character<-c("China","Korea","Japan","UK","USA","France","India","Russia")数值型numeri
c<-c(1,3,6,7,3,8,6,4)逻辑型logical<-c(T,F,T,F,T,F,F,T)复数型略25向量的创建生成向量的函数c(),rep(),seq(),”:”c(2,5,6,9)rep(2,times=4)seq(from=3
,to=21,by=3)[1]36912151821“:”1:15[1]123456789101112131415通过与向量的组合,产生更为复杂的向量。rep(1:2,c(10,15))26向量创建——产生随机数rfunc(n,p1,p2,...),其中func指概率分布函数,n为生成数据的个数,
p1,p2,...是分布的参数数值。上面的表给出了每个分布的详情和可能的缺省值(如果没有给出缺省值,则意味着用户必须指定参数)。用0~1之间的均匀分布产生10个随机点:runif(10)orrunif(10,min=0,max=1)rnorm(
10,mean=0,sd=1)大多数这种统计函数都有相似的形式,只需用d、p或者q去替代r,比如概率密度(dfunc(x,...))dunif(x,min=0,max=1,log=FALSE)累积函数punif(q,min=0,max=1,…)分位数qunif(p,min=0,max=1,…)显
著性水平为5%的正态分布的双侧临界值是:qnorm(0.025)-1.959964qnorm(0.975)=1.9599642728矩阵的创建生成矩阵的函数dim()和matrix()dim()定义矩阵的行列数,例如:x<-1:12dim(x)<-c(3
,4)[,1][,2][,3][,4][1,]14710[2,]25811[3,]36912matrix.x<-matrix(1:12,nrow=3,byrow=T)t(x)#转置为行或列添加名称:row.names()col.names()29数据框的创建创建数据框的函数:data.frame(
),as.data.frame(),cbind(),rbind()cbind()#按列组合成数据框rbind()#按行组合成数据框data.frame()#生成数据框head()#默认访问数据的前6行30工作空间imageR的所有对象都在计算机内存的工作空间中。ls(
)列出工作空间中的对象rm()删除工作空间中的对象rm(list=ls())删除空间中所有对象save.image()保存工作镜像sink()将运行结果保存到指定文件中getwd()显示当前工作文件夹setwd()设定工作文件夹可将结果保
存在image中,形式为.Rdata文件,里面保存了R当前工作空间中的各种对象,包括函数。31三脚本编程Scripting32例-线性回归转速rpm202224262830323436384042杂质率%8.49.511.
810.413.314.813.214.716.416.518.918.5对一批涂料进行研究,确定搅拌速度对杂质含量的影响,数据如下,试进行回归分析表3搅拌速度对涂料中杂质的影响33脚本举例#将以下代码粘贴到编辑器中,另存为regression.r文件。rate<
-c(20,22,24,26,28,30,32,34,36,38,40,42)impurity<-c(8.4,9.5,11.8,10.4,13.3,14.8,13.2,14.7,16.4,16.5,18.9,18.5)plot(impurity~rate)r
eg<-lm(impurity~rate)abline(reg,col="red")summary(reg)34运行脚本三种运行方式1通过source()函数运行source("d:/regression.r")2通过R脚本编辑器运行路径:RGui>File>OpenScript#Ctrl+R运
行3直接粘贴到R控制台ctrl+c,ctrl+v第三种最为简单直接35四R绘图36图19R绘制的图形37高级绘图函数plot()绘制散点图等多种图形,根据数据的类,调用相应的函数绘图hist()频率直方图boxplot()箱线图stripchart()点图barplot()柱状图do
tplot()点图piechart()饼图matplot()数学图形38图23散点图与箱线图39低级绘图函数lines()添加线curve()添加曲线abline()添加给定斜率的线points()添
加点segments()折线arrows()箭头axis()坐标轴box()外框title()标题text()文字mtext()图边文字40绘图参数参数用在函数内部,在没有设定值时使用默认值。font=字体lty=线类型lwd=线宽度pch=点的类型,xlab=横坐标y
lab=纵坐标xlim=横坐标范围ylim=纵坐标范围也可以对整个要绘制图形的各种参数进行设定参见par()41举例:绘图生成0到2之间的50个随机数,分别命名为x,yx<-runif(50,0,2)y<-runif(50,0,2)绘图:将主标题命
名为“散点图”,横轴命名为”横坐标”,纵轴命名为“纵坐标”plot(x,y,main="散点图",xlab="横坐标",ylab="纵坐标")text(0.6,0.6,"textat(0.6,0.6)")abline(h=.6,v=.6)42图24
绘图举例43例:分步绘图1.打开绘图窗口,不绘制任何对象plot(x,y,type="n",xlab="",ylab="",axes=F)2.添加坐标点points(x,y)3.添加坐标轴axis(1);axis(at=seq(0.2,1.8,0.2),side=2)4.补齐散
点图的边框box()5.添加标题、副标题、横轴说明、纵轴说明title(main="Maintitle",sub="subtitle",xlab="x-label",ylab="y-label")44图25分步绘图12345645一页
多图图26一页多图par()par(mfrow=c(2,2)...46在原有图形上添加元素举例:x<-rnorm(100)#生成随机数hist(x,freq=F)#绘制直方图curve(dnorm(x),add=T)#添加曲线h<-hist(x,plot=F
)#绘制直方图ylim<-range(0,h$density,dnorm(0))#设定纵轴的取值范围hist(x,freq=F,ylim=ylim)#绘制直方图curve(dnorm(x),add=T,
col="red")#添加曲线47图27在原有直方图上添加曲线48五编写函数49编程基础R可以灵活的编写程序,用户自己编写的程序可以直接调用。编程时无需声明变量的类型,这与C,C++等语言不同。基本格式函数名<-function(数据,参数1=默认值,…){异常处理;表达式(循环/判别
);return(返回值);}函数内部也可用#添加注释50函数实例•图28函数实例data2mat()51程序流程控制ifif(条件)表达式if(条件)表达式1else表达式2举例p=0.03{if(p<=0.05)print("p<=0.05!")elseprint("p>0.05!
")}52循环for,whilefor(变量in向量)表达式用法:for(iin1:10)print(i)while(条件)表达式用法:i<-1while(i<10){print(i)i<-i+1}53返回值•返回值表示函数输出的结果。•返回值必须是一个对象。•R默认将最后一行作为返回值。
•如果函数的结果需要有多个返回值,可以创建一个list(),并返回该对象。•也可以用return()函数,设定返回值。•但是一个函数的返回的对象只有一个。54异常处理•如数据输入不能满足要求,或者参数设定错误等等
,可能造成函数给出错误的结果,则需要对函数的运行过程发出警告或终止,以提高程序的稳健性。•警告的写法if(any(is.na(inputdata)))inputdata<-na.omit(inputdata)cat(“NAsarefoundintheinputdata,and
hasbeenremoved.\n")•终止的写法if(any(is.na(xx)))stop("NAsarenotallowed!\n")55函数举例问题:输入直角三角形的两个边长,求其斜边长。定义函数:rc
al<-function(x,y){z<-x^2+y^2result<-sqrt(z)return(result)}调用函数:rcal(3,4)56write.table()write.csv()save.image()sink()unlink()若有LaTeX基础,可以用Sweave()函
数该函数能将脚本、程序说明和运算结果直接保存成.tex文件,用LaTeX编译成pdf文件。六数据保存常用概率分布重点回顾生物科学研究中常用的几种随机变量的概率分布——正态分布、二项分布、波松分布如果表示试验结果
的变量x,其可能取值至多为可列个,且以各种确定的概率取这些不同的值,则称x为离散型随机变量(discreterandomvariable);如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为连续型随机变量(con
tinuousrandomvariable)。59要了解离散型随机变量x的统计规律,就必须知道它的一切可能值xi及取每种可能值的概率pi。如果我们将离散型随机变量x的一切可能取值xi(i=1,2,…),及其对应的概率pi,记作P(x=xi)=pii=1,
2,…(4—3)则称(4—3)式为离散型随机变量x的概率分布或分布。常用分布列(distributionseries)来表示离散型随机变量:x1x2…xn….p1p2…pn…显然离散型随机变量的概率分布具有pi≥0和Σpi=1这两个基本性质。连续型随机变量的概率分布•连续型随机变量(如体长
、体重、蛋重)的概率分布不能用分布列来表示,因为其可能取的值是不可数的。我们改用随机变量x在某个区间内取值的概率P(a≤x<b)来表示。下面通过频率分布密度曲线予以说明。60若记概率分布密度函数为f(x),则
x取值于区间[a,b)的概率为图中阴影部分的面积,即P(a≤x<b)=式为连续型随机变量x在区间[a,b)上取值概率的表达式。可见,连续型随机变量的概率由概率分布密度函数确定。badxxf)(连续型随机变量概率分布的性质:1、分布密度函数总是大
于或等于0,即f(x)≥0;2、当随机变量x取某一特定值时,其概率等于0;即(c为任意实数)因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。ccdxxfcxP0)()(3、
在一次试验中随机变量x之取值必在-∞<x<+∞范围内,为一必然事件。所以表示分布密度曲线下、横轴上的全部面积为1。1)()(dxxfxP一、正态分布的定义及其特征(一)正态分布的定义若连续型随机变量x的概率分布密度函数为其中μ为平均数,σ2为方差,则称随机
变量x服从正态分布(normaldistribution),记为x~N(μ,σ2)。相应的概率分布函数为222)(21)(xexfxxdxexF222)(21)((二)正态分布的特征1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=μ;2、f(x)在x=
μ处达到极大,极大值;3、f(x)是非负函数,以x轴为渐近线,分布从-∞至+∞;21)(f4、曲线在x=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的;5、正态分布有两个参数,即平均数μ和标准差σ。μ是位置参数,当σ恒定时
,μ愈大,则曲线沿x轴愈向右移动;反之,μ愈小,曲线沿x轴愈向左移动。σ是变异度参数,当μ恒定时,σ愈大,表示x的取值愈分散,曲线愈“胖”;σ愈小,x的取值愈集中在μ附近,曲线愈“瘦”。我们称μ=0,σ2=1的
正态分布为标准正态分布(standardnormaldistribution)。标准正态分布的概率密度函数及分布函数分别记作ψ(u)和Φ(u),由(4-6)及(4-7)式得:随机变量u服从标准正态分布,记作u~N(0,1),2221)(ueudueuuu22121)(对于任何
一个服从正态分布N(μ,σ2)的随机变量x,都可以通过标准化变换:u=(x-μ)/σ将其变换为服从标准正态分布的随机变量u。u称为标准正态变量或标准正态离差(standardnormaldeviate)。三、正态分布
的概率计算(一)标准正态分布的概率计算设u服从标准正态分布,则u在[u1,u2)何内取值的概率为:=Φ(u2)-Φ(u1)而Φ(u1)与Φ(u2)可由附表1查得。dueduedueuuuPuuuuuuu12222122121212
1212121)(U1U2例如,u=1.75,1.7放在第一列0.05放在第一行。在附表1中,1.7所在行与0.05所在列相交处的数值为0.95994,即Φ(1.75)=0.95994有时会遇到给定Φ(u)值,例如Φ(u)=0.284,反过来查u值。这只要在附表1中找到与0.284最接近
的值0.2843,对应行的第一列数-0.5,对应列的第一行数值0.07,即相应的u值为u=-0.57,即Φ(-0.57)=0.284如果要求更精确的u值,可用线性插值法计算。关于标准正态分布,以下几种概率应当熟记:P(-1
≤u<1)=0.6826P(-2≤u<2)=0.9545P(-3≤u<3)=0.9973P(-1.96≤u<1.96)=0.95P(-2.58≤u<2.58)=0.99这表明服从正态分布N(μ,σ2)的随机变量x在[x1,x2)内取值的概率,等于服从标准正态分布的随机变量u在[(x1-μ)
/σ,(x2-μ)/σ)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。设x服从μ=30.26,σ2=5.102的正态分布,试求P(21.64≤x<32.98)。令则u服从标准正态分布,故=P(-1.69≤u
<0.53)=Φ(0.53)-Φ(-1.69)=0.7019-0.04551=0.6564)10.526.3098.3210.526.3010.526.3064.21()98.3264.21(
xPxP10.526.30xu关于一般正态分布,以下几个概率(即随机变量x落在μ加减不同倍数σ区间的概率)是经常用到的。P(μ-σ≤x<μ+σ)=0.6826P(μ-2σ≤x<μ+2σ)=0.9545P(μ-3σ≤x<μ+3σ)=0.9
973P(μ-1.96σ≤x<μ+1.96σ)=0.95P(μ-2.58σ≤x<μ+2.58σ)=0.9971设X服从平均值为1,标准差为2的正态分布(高斯分布),即X~N(1,4),求P{0<X≤1.6}解:这里X是一个连续型随机变量。求X在某段区间上的概率,用X的分布函数在区间两端的
值的差。方法一:P{0<X≤1.6}=P{X≤1.6}-P{X≤0}=F(1.6)–F(0)>pnorm(1.6,1,2)-pnorm(0,1,2)[1]0.3093739方法二:转化为标准正态分布。P{x1<X≤x2
}=P{(x1-μ)/σ<(X-μ)/σ≤(x1-μ)/σ}=φ((x2-μ)/σ)-φ((x1-μ)/σ)即P{0<X≤1.6}=φ((1.6-1)/2)-φ((0-1)/2)>pnorm((1.6-1)/2)-pnorm((0-
1)/2)#pnorm函数的缺省参数mean=0,sd=1,即默认标准正态分布[1]0.3093739二项分布一、贝努利试验及其概率公式将某随机试验重复进行n次,若各次试验结果互不影响,即每次试验结果出现的
概率都不依赖于其它各次试验的结果,则称这n次试验是独立的。对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与之一,在每次试验中出现A的概率是常数p(0<p<1),因而出现对立事件的概率是1-p=q,则称这一串重复的独立试验为n重贝努利试验,简称贝努利
试验(Bernoullitrials)。AA在生物学研究中,我们经常碰到的一类离散型随机变量,如入孵n枚种蛋的出雏数、n头病畜治疗后的治愈数、n尾鱼苗的成活数等,可用贝努利试验来概括。在n重贝努利试验中,
事件A可能发生0,1,2,…,n次,现在我们来求事件A恰好发生k(0≤k≤n)次的概率Pn(k)。先取n=4,k=2来讨论。在4次试验中,事件A发生2次的方式有以下种:24C4321AAAA4321AAAA4321AAAA4321AAAA4
321AAAA4321AAAA其中Ak(k=1,2,3,4)表示事件A在第k次试验发生;(k=1,2,3,4)表示事件A在第k次试验不发生。由于试验是独立的,按概率的乘法法则,于是有P()=P()=…=P()=P()·P()
·P()·P()=又由于以上各种方式中,任何二种方式都是互不相容的,按概率的加法法则,在4次试验中,事件A恰好发生2次的概率为kA4321AAAA4321AAAA4321AAAA1A2A3A4A242qpP4(2)=P(
)+P()+…+P()=一般,在n重贝努利试验中,事件A恰好发生k(0≤k≤n)次的概率为k=0,1,2…,n(1)若把(4-14)式与二项展开式相比较就可以发现,在n重贝努利试验中,事件A发生k次的概率恰好等于展开式中的第k+1项,所以也
把(1)式称作二项概率公式。4321AAAA4321AAAA4321AAAA24224qpCknkknnqpCkP)(nkknkknnqpCpq0)(二、二项分布的意义及性质二项分布定义如下
:设随机变量x所有可能取的值为零和正整数:0,1,2,…,n,且有=k=0,1,2…,n其中p>0,q>0,p+q=1,则称随机变量x服从参数为n和p的二项分布(binomialdistribution),记为x~B(n,p)。)(kPn
knCknkqp二项分布是一种离散型随机变量的概率分布。参数n称为离散参数,只能取正整数;p是连续参数,它能取0与1之间的任何数值(q由p确定,故不是另一个独立参数)。容易验证,二项分布具有概率分布的一切性质,即
:1、P(x=k)=Pn(k)(k=0,1,…,n)2、二项分布的概率之和等于1,二项分布的概率计算及应用条件纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论,子二代中白猪与黑猪的比率为3∶1。求窝产仔10头,有7头白猪的概率。根据题
意,n=10,p=3/4=0.75,q=1/4=0.25。设10头仔猪中白色的为x头,则x为服从二项分布B(10,0.75)的随机变量。于是窝产10头仔猪中有7头是白色的概率为:2503.025.075.0!3!7!1025
.075.0)7(3737710CxP某人进行射击,每次击中目标的命中率为0.02,独立射击400次,求至少击中两次的概率。解:400贝努利试验,用二项分布求解。P{X=k}=C400k*(0.02)^
k*(0.98)^(400-k)P{X≥2}=1–P{X=0}-P{X=1}>1-sum(pbinom(0:1,400,0.02))[1]0.996856178二项分布记为X~b(n,p),E(x)=np,Var(x)=np(1-p)pbinom(q,size,pr
ob),q是特定取值,比如pbinom(8,20,0.2)指第8次伯努利实验的累计概率。size指总的实验次数,prob指每次实验成功发生的概率dbinom(x,size,prob),x同上面的q同含义。dfunction()对于离散
分布来说结果是特定值的概率,对连续变量来说是密度(Density)rbinom(n,size,prob),产生n个b(size,prob)的二项分布随机数二项分布的应用条件有三:(1)各观察单位只具有互相对立的一种结果,如阳性或阴性,生存或死亡等,属于
二项分类资料;(2)已知发生某一结果(如死亡)的概率为p,其对立结果的概率则为1-P=q,实际中要求p是从大量观察中获得的比较稳定的数值;(3)n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观
察结果。波松分布波松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布。要观察到这类事件,样本含量n必须很大。泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率.泊松分布适合于描
述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等.在生物、医学研究中,服从波松分布的随机变量是常见的。如,一定畜群中某种患病率很低的非传染性疾病患病数或死亡数,畜群中遗传的畸形怪胎数,
每升饮水中大肠杆菌数,计数器小方格中血球数,单位空间中某些野生动物或昆虫数等,都是服从波松分布的。一、波松分布的意义若随机变量x(x=k)只取零和正整数值0,1,2,…,且其概率分布为,k=0,1,……其中λ>0;e=2.7182…是自然对数的底数,
则称x服从参数为λ的波松分布(Poisson‘sdistribution),记为x~P(λ)。ekkxPk!)(波松分布重要的特征:平均数和方差相等,都等于常数λ,即μ=σ2=λ【例】调查某种猪场闭锁育种群仔猪畸形数,共记录200窝,畸形仔猪数的分布
情况如表所示。试判断畸形仔猪数是否服从波松分布。样本均数和方差S2计算结果如下:=Σfk/n=(120×0+62×+15×2+2×3+1×4)/200=0.51x83将0.51代替公式中的λ得:(k=0,1,2,…)因为
e-0.51=1.6653,所以畸形仔猪数各项的概率为:P(x=0)=0.510/(0!×1.6653)=0.6005P(x=1)=0.511/(1!×1.6653)=0.3063P(x=2)=0.512/(2!×1.6653)=0.078151
.0!51.0)(ekkxPkP(x=3)=0.513/(3!×1.6653)=0.0133P(x=4)=0.514/(4!×1.6653)=0.0017把上面各项概率乘以总观察窝数(n=200)即得各项按波松
分布的理论窝数。波松分布与相应的频率分布列0001.09999.01)(1)4(40kkxpxP畸形仔猪数的波松分布将实际计算得的频率与根据λ=0.51的泊松分布计算的概率相比较,发
现畸形仔猪的频率分布与λ=0.51的波松分布是吻合得很好的。这进一步说明了畸形仔猪数是服从波松分布的。【例4.14】为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400个记录如下:可见细菌数的频率分布与λ=0.5
的波松分布是相当吻合的,进一步说明用波松分布描述单位容积中细菌数的分布是适宜的。λ是波松分布所依赖的唯一参数。λ值愈小分布愈偏倚,随着λ的增大,分布趋于对称。当λ=20时分布接近于正态分布;当λ=50时,可以认为波松分布呈正态分布。所以在实际工作中,当λ≥
20时就可以用正态分布来近似地处理波松分布的问题。前面讨论的三个重要的概率分布中,前一个属连续型随机变量的概率分布,后两个属离散型随机变量的概率分布。三者间的关系如下:对于二项分布,在n→∞,p→0,且np=λ(较小常数)情况下,二项分布趋于波松布。在这种场合,波松分布中的参数λ用二
项分布的np代之;在n→∞,p→0.5时,二项分布趋于正态分布。在这种场合,正态分布中的μ、σ2用二项分布的np、npq代之。在实际计算中,当p<0.1且n很大时,二项分布可由波松分布近似;当p>0.1且n很大时,二项分布可由正态分布近似。8788推荐的教材•CrawleyStatisti
csanintroductionusingR•PeterDalgaardIntroductorystatisticswithR•E.ParadisRforBeginners•VerzaniSimpleR.•DGR
ossiterIntroductiontotheRProjectforStatisticalComputingforuseatITC•J.MaindonaldUsingRfordataanalysisandgraphicsintroductioncodeandcommentaryu
singR•Venables,W.N.&Ripley,B.D.ModernAppliedStatisticswithS