医学科研数据挖掘方法-挖掘技术-课件3

PPT
  • 阅读 56 次
  • 下载 0 次
  • 页数 42 页
  • 大小 957.011 KB
  • 2023-05-28 上传
  • 收藏
  • 违规举报
  • © 版权认领
下载文档20.00 元 加入VIP免费下载
此文档由【小橙橙】提供上传,收益归文档提供者,本网站只提供存储服务。若此文档侵犯了您的版权,欢迎进行违规举报版权认领
医学科研数据挖掘方法-挖掘技术-课件3
可在后台配置第一页与第二页中间广告代码
医学科研数据挖掘方法-挖掘技术-课件3
可在后台配置第二页与第三页中间广告代码
医学科研数据挖掘方法-挖掘技术-课件3
可在后台配置第三页与第四页中间广告代码
医学科研数据挖掘方法-挖掘技术-课件3
医学科研数据挖掘方法-挖掘技术-课件3
还剩10页未读,继续阅读
【这是免费文档,您可以免费阅读】
/ 42
  • 收藏
  • 违规举报
  • © 版权认领
下载文档20.00 元 加入VIP免费下载
文本内容

【文档说明】医学科研数据挖掘方法-挖掘技术-课件3.ppt,共(42)页,957.011 KB,由小橙橙上传

转载请保留链接:https://www.ichengzhen.cn/view-255999.html

以下为本文档部分文字说明:

数据挖掘技术(3)一.文章错误案例二.统计分析方法回顾三.如何正确选择统计分析方法四.统计分析方法应用案例一.文章错误案例案例一•原文题目:《美喘清和博利康尼治疗支气管哮喘各40例临床疗效与副作用比较》,作者选择80例哮喘病人随

机分为美喘清组与博利康尼组各40例,记录各组病人发生疗效的时间(见下表)。所得结果用卡方检验进行处理,认为美喘清较博利康尼发生疗效的时间早,且差异具有统计学意义(P<0.05)。➢点评:根据研究目的,每个哮喘患者都能提供一个药物发生疗效的时间,因而此资料从本质土讲应为定量资料,表

中结果只是为了表达的方便列出不同时点上的频数分布,并不代表此资料的结果变量就为定性资料。原作者采用卡方检验分析定量资料,所能回答的问题与原作者的分析目的不一致。此时得出的结论只能是美喘清组和博利康尼组在不同起效时间的构成上存在的差别是否具有统计学意义,并不

能得出两组起效时间之间的差别具有统计学意义。案例二•原文题目:《地氟醚对老年病人血液动力学的影响》,为研究地氟醚对老年病人血液动力学的影响,选择腹部手术老年病人(年龄60一74岁)30例,所有病人术前肝

肾功能检查均正常。在吸入地氟醚前,监测心输出量(CO)、峰流速(PV)、心率(HR)、校正的血流时间(FTC)、中心静脉压(CVP)、心脏指数(CI)、平均动脉压(MAP)、外周血管阻力(SYR)作为基础值,然后分别调整地氟醚浓度至0.5MAC、1.0MAC、1.5MAC、2.0

MAC,同时测定以上各参数。结果见表。统计学处理:采用T检验来测定差异显著性,P<0.05为有显著性差异。•点评:同一个病人重复测量了若干血液动力学指标,地氟醚浓度是与“重复测量’有关的因素,因而此资料属于具有一个重复测量的单因素设计资料,作者采用T检验进行两两

比较,因T检验仅适合分析单因素设计且因素的水个数最多为2的定量资料,因此不适合分析此类资料。根据数据可采用重复测量设计资料的方差分析。统计学四型错误Ⅰ型错误:也称假阳性错误。即当原假设H0客观上成立,但根据假设检验的规则,将有α

大小的概率错误地拒绝H0,同时错误地接受备择假设H1。Ⅱ型错误:也称假阴性错误。即当H0客观上不成立,但根据假设检验的规则,将有β大小的概率错误地拒绝H1,同时错误地接受H0。Ⅲ型错误:即最终回答的是1个错误的问题。此错误主要是由于试验设计不周密不完善所致,如在试验设计中未将重要的试验因素包括

在内。Ⅳ型错误:即对1个假设进行了多项正确的检验,但在对因果关系的分析时作出了错误的比较和解释,这些比较并非是由被使用的模型所定义的。此错误主要出现在结果的解释阶段。二.统计分析方法回顾I.无假设的数据挖掘方法QQQQI

I123456factor1factor2factorn神经网络聚类分析OpenAccn’tTime时间序列分析Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONON

OIncome>$40K决策树关联分析H1H2H支持向量机决策树的原理•支路▫从根节点(决策节点)到叶节点(结局节点)为一条支路▫从一个决策节点放射出来的支路必须互斥且包含一切可能的情况,即每一方案各种状态发生的概率之和为1决策节点机会节点结局节点无强制措施铅中

毒诊断有强制措施无中毒中毒P=0.73P=0.27低中高P=0.46P=0.43P=0.11¥0¥75¥150¥350中毒无中毒P=0.38P=0.62¥18低中高P=0.50P=0.46P=0.04¥305¥146¥79决策树的特点•优点▫直观,易于理解及解释▫对资料分布无特殊要求

•缺点▫处理大样本多变量时效率较低▫分类性能较神经网络与SVM稍差•用法:分类预测,回归预测,卫生决策…支持向量机原理•H是分类面,H1和H2是平行于H,且分离H最近的两类样本的直线,H1与H,H2与

H之间的距离就是几何间隔•离分类面H最近的样本点,因其构成了H1,H2平面,成为H1、H2的支持向量•从数学上可以证明分类面的几何间隔越大,分类误差越小•SVM:最大化几何间隔,寻找最优分类面H1H2H几何间隔支持向量机(SVM)本质上是一

种分类判别函数SVM的特点•优点▫对样本量需求小▫高维识别:对大样本量的数据能降低部分运算复杂性▫很好的“鲁棒性”(数据容错能力)▫能处理非线性可分样本▫得到全局最优解•缺点▫对变量数很多的数据计算复杂度很大▫解决多分类问题效果不好▫作为分类器

,难以解释各因素的影响大小•用途▫分类、回归、异常值检测……人工神经网络输入层中间层(隐含层)输出层•神经网络可以分为三个部分——输入层、中间层、输出层•中间层可以为单层,也可以为多层•一般建模时,输入层的神经元个数为影响因素个数,输出层为

结局变量个数,中间层没有固定的个数,需要经验和实际情况确定•如图所示的人工神经网络结构为4-6-3-1,神经网络的结构越复杂越能拟合复杂的模型神经网络的特点•优点▫对数据分布要求低,不需要对数据分布进行检验▫具有很强的数据

容错能力(鲁棒性)▫能拟合因素间复杂的非线性关系•缺点▫黑箱子模型,难以写出推理过程及模型公式▫其预测精度受训练集的影响▫易陷入局部最优解•用途▫预测、模式识别……聚类概念•聚类就是将数据对象组成不同的类,使得不同类之间的相似性尽量小,而同类对象之间的相似性尽量大•探索

性统计分析方法•在不知道应分多少类合适的情况下,试图借助某种数理方法用已收集的资料找出研究对象的适当分类常用聚类算法的特点常用聚类算法优点缺点层次聚类•适用于任意形状和任意属性的数据集•灵活控制不同层次的聚类粒度•强聚类能力•算法执行时间长•

不能回溯处理,一旦合并不能重新分配划分聚类•简单快速•处理大型数据集灵活高效•当各类内部较密集,而类间较稀疏时,聚类效果较好•难以处理定性数据•对初始指定值较敏感•处理数据中的“噪声”和孤立点时不够稳健关联规则的原理糖尿病高血压脑卒中吸烟饮酒11111121100131111041011

0501000数据项事务•关联规则•数据项集X,YX→Y糖尿病→高血压•支持度(在关联规则中,同时出现数据项集X,Y的概率)•支持度(糖尿病→高血压)=3/5=60%•在所有数据中,有60%的数据支持(糖尿病→高血压)•置信度(在关联规则中

,包含X和Y的事务数与包含X的事务数之比)•置信度(糖尿病→高血压)=3/4=75%•在得糖尿病的人中,有75%可以认为是高血压关联规则的特点•优点▫可产生清晰有用的结果▫支持间接数据挖掘▫可处理缺失的数据•缺点▫随着样本量增加,计算量增长很快▫不能判断关联的真实性▫容易忽略稀有的数据时

序概念•时间序列▫将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而成的序列成为时间序列▫时间序列中每一时期的数值,都是由许多不同的因素共同作用的结果•时间序列预测模型:ARIMA(自回归移动平均模型)、指数平滑、一元或多元回归、生长曲线、Markov链

和灰色预测等时序分析的特点•基本假设:连续性原理▫假定事物过去的发展趋势会延伸到未来•只需考虑时间变量的作用,使用简单。•只能用于预测,不能做影响因素和预测对象的因果分析。•当外界突然出现跳跃式变化时,预测误差较大,中短期预测效果更好。

•常用软件:SPSS、SAS、RII.基于假设的数据挖掘方法数据统计分析方法(1)(单因素分析)➢T检验➢卡方检验➢ANOVA数据统计分析方法(2)(多因素分析)➢LOGISTIC回归过程•两分类反应变量•多

分类有序反应变量•多分类无序反应变量➢REG过程(回归过程)➢广义线性模型过程(GENMOD)•传统线性模型:DIST=NORMAL,LINK=IDENTITY(衡等式)•Logistic回归:DIST=BINO

MIAL,LINK=LOGIT(分对数)•Poisson回归:DIST=POISSON,LINK=LOG(对数)•GAM模型:DIST=GAMMA,LINK=LOG(对数)数据统计分析方法(3)(时间考虑)➢Kaplan-Meier过程➢CoxRegression过程➢时间序列

分析(指数平滑方法、自回归分析、ARIMA过程)数据统计分析方法(4)(数据结构考虑)➢遗传度计算➢家族聚集性分析➢组内相关分析数据统计分析方法(5)(多水平分析)➢广义线性混合效应模型(GLMMs)➢混合效应模型◆混合线性模型(MIXED)◆非线

性混合效应模型(NLMIXED)数据统计分析方法(6)(复杂自变量关系分析)➢叛别分析过程(DISCRIM)➢聚类分析过程(CLUSTER)➢主成分分析与因子分析➢通径分析➢结构方程模型数据统计分析方法(7)(遗传分析方法)➢单体

型分析➢FBAT分析(TDT,SDT)➢交互作用分析(MDR、GMDR、PGMDR)➢连锁分析➢分离分析➢GWS➢……三.如何正确选择统计分析方法统计分析方法如何分类?➢因变量(反应变量)➢自变量➢时间➢数据库(结构)图1:变量、记录和时间与数据分析的关系记录◼群体(个体)、

家系时间◼横断面调查、队列研究◼一次调查(检测)、多时点调查(重复测量)结局变量(因变量)、研究因素(自变量)、协变量。连续变量、分类变量(二分类,等级变量、无序变量)。环境因素、临床指标、遗传易感性(基因多态性)变量(内容)记录(研究对象)时间挖掘

(研究设计)数据分析思考点➢从研究变量之间关系进行选择➢从研究对象构成进行选择➢从研究时间进行选择➢从以上两个或者三个组合进行选择挑战统计学知识流行病学知识数据处理经验文献阅读其它学科本专业知识如何选择“最完美”的统计方法四.统计分析方法应用案例1.研究现场:上海、广州、西安、北京

、武汉五个城市。2.研究设计:队列研究,2001-至今;每两年随访一次。3.研究对象:以家庭为单位,对每个家庭人员进行调查。4.抽样方法:多阶段分层随机抽样。5.流行病学问卷调查:基本信息:年龄、性别、文化程度、婚姻状况、收入;生

活环境、行为、饮食习惯;既往疾病史。6.体格检查:身高、体重、血压。7.临床生化检测:血糖、血脂、肝肾功能,。8.基因分型:10个基因,30个位点,其中部分位点存在连锁不平衡。二型糖尿病的分子流行病学研究➢美国兰

德公司在朝鲜战争刚开始时预言——这是选择在错误的时间、错误的地方、同错误的对手打一场错误的战争(Frankly,thisstrategywouldinvolveusinthewrongwar,atthewrongplace,atthewrongtime,andwith

thewrongenemy)。1950年5月结束语只有经过正确的数据预处理、选择正确的挖掘技术,才能对正确的数据进行正确的挖掘。

小橙橙
小橙橙
文档分享,欢迎浏览!
  • 文档 25747
  • 被下载 7
  • 被收藏 0
相关资源
广告代码123
若发现您的权益受到侵害,请立即联系客服,我们会尽快为您处理。侵权客服QQ:395972555 (支持时间:9:00-21:00) 公众号
Powered by 太赞文库
×
确认删除?