医学大数据分析策略与数据挖掘课件

PPT
  • 阅读 55 次
  • 下载 0 次
  • 页数 42 页
  • 大小 7.271 MB
  • 2023-05-26 上传
  • 收藏
  • 违规举报
  • © 版权认领
下载文档20.00 元 加入VIP免费下载
此文档由【小橙橙】提供上传,收益归文档提供者,本网站只提供存储服务。若此文档侵犯了您的版权,欢迎进行违规举报版权认领
医学大数据分析策略与数据挖掘课件
可在后台配置第一页与第二页中间广告代码
医学大数据分析策略与数据挖掘课件
可在后台配置第二页与第三页中间广告代码
医学大数据分析策略与数据挖掘课件
可在后台配置第三页与第四页中间广告代码
医学大数据分析策略与数据挖掘课件
医学大数据分析策略与数据挖掘课件
还剩10页未读,继续阅读
【这是免费文档,您可以免费阅读】
/ 42
  • 收藏
  • 违规举报
  • © 版权认领
下载文档20.00 元 加入VIP免费下载
文本内容

【文档说明】医学大数据分析策略与数据挖掘课件.ppt,共(42)页,7.271 MB,由小橙橙上传

转载请保留链接:https://www.ichengzhen.cn/view-255613.html

以下为本文档部分文字说明:

医学大数据分析策略与数据挖掘讲座人:郭秀花博士生导师guoxiuh@ccmu.edu.cn单位:首都医科大学日期:2014年11月22日12提纲中心概况医学大数据及其分析策略1中心概况2数据挖掘软件及其实现方法3数据挖掘方法简介及其应用3医学大数据及其

分析策略大数据(BigData)数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。4Volume数据容量巨大:TB到PB级别Velocity出现和更新速度快时效性高Vari

ety数据类型繁多:图片、视频等Value潜在价值大密度低提纯难度大模拟式存量数字式存量•2000年以前大部分数据是analogdata(模拟式数据)以书、报纸、录像带等存储。特点:数据量较小。•2000年以后digi

taldata(数字式数据)大大增加以CD、DVD、硬盘等存储。特点:数据量巨大。2000年Source:ResearchersattheUniversityofSouthernCaliforniatook

fouryears--1986,1993,2000and2007--andextrapolatednumbersfromroughly1,100sourcesofinformation.Credit:

ToddLindemanandBrianVastag/TheWashingtonPost大数据时代的来临56医学大数据的应用意义生物标志物识别利用大数据识别有关疾病发生、预后或治疗效果的生物标志物组学研究基因组学

,表观组学,蛋白组学,代谢组学,糖基组学,等环境因素,个体行为与各组学关联7公共卫生监测:传染病监测、慢性非传染性疾病及相关危险因素监测、健康相关监测群体性预防。医学大数据的应用意义8健康管理:通过可穿戴设备对个体

体征数据的实时、连续监测提供个体化疾病预防和治疗方案医疗协同和临床决策支持:通过建立专用数据库,调用患者的基因数据、病历信息等大量医学参考数据,辅助疾病的诊断与治疗,实现个体化诊治原则医学大数据的应用意义9可视化信息:数据与信息图像、多媒

体信息可视化,更清晰有效地传达与沟通大数据包含的生物医学信息。医学大数据的应用意义10在生物医学研究领域,大数据:➢环境气象学数据➢医学影像数据➢基因、蛋白等组学数据➢大型临床资料➢复杂的生物和环境因素研究生物医学大数据的只要特点:

高维11科学问题处理方式12条件正态性线性、齐性独立性足够大的样本量变量的20倍......方法多元线性回归分析Logistic回归分析Cox回归分析聚类分析判别分析主成分分析因子分析广义线性模型......

➢传统的多元统计方法难以处理和分析医学大数据➢高维、非线性、非高斯等数据,采用数据挖掘方法,可以提供更高的预测精度。常用的医学多元统计学应用受到制约13数据挖掘方法简介及其应用14数据挖掘概念数据挖掘

:是在从大量的数据中提取隐含的、事先未知的,但又是潜在有用的信息和知识的过程。14大数据源定义研究问题模型应用建立模型模型评估数据准备提取数据15数据挖掘方法概述数据挖掘属性筛选关联分析分类预测回归预

测聚类分析随机森林神经网络分类决策树分布估计聚类期望最大化EMK均值聚类层次聚类支持向量机回归回归组合模型广义线性回归神经网络回归LASSO分类回归树支持向量机高维数据降维属性关联分析购物篮分析朴素贝叶斯肺结节良恶性的判定是CT图像诊断肺癌中的一个难点和关键点。在实

际的临床中,肺癌被确诊时80%以上已属中晚期。16数据挖掘方法应用实例矢状位冠状位轴状位➢矢状位图像库➢冠状位图像库➢轴状位图像库三正交位成像应用实例171801基本信息➢年龄、性别等➢轴位纹理➢冠状位纹理➢矢状位纹理02既往史➢肿瘤病史➢粉尘接触史➢遗传病史➢吸烟史等➢淋巴结是否肿

大➢边缘是否光滑➢是否分叶➢结节位置➢有无空泡征等数据集合03影像学检查CT图像纹理04高维大数据库(变量约1000,样本336例)数据挖掘主要分类预测方法基于肺结节纹理鉴别诊断肺癌最近邻分类决策树神经网络Gradientboosting随机森

林支持向量机Lasso回归1919✓各纹理产生30,40,50,60个子代(即纹理分别为420,560,700,840个)。每个纹理子代分布为正态分布,均值和标准差与轴位CT图像均值相近;✓设定每个纹理内部子代之间的相关系数为r=0.1,0.2,0.3,0.4;✓分别产生2组数据,设定两组

各个变量均值之间的差值为d(0.01-0.1)。MonteCarlo模拟分析结果2020MonteCarlo模拟分析结果纹理相关系数为0.1时,840个纹理值各预测模型拟合结果纹理相关系数为0.2时,840个纹理值各

预测模型拟合结果212122支持向量机支持向量机(SupportVectorMachine,SVM)是美国Vapnik教授于1963年提出的。在解决小样本、非线性和高维模式识别问题中表现出许多优势,并在一定程度上克服了“维数灾难”和“过

学习”等问题。在模式识别、回归分析、函数估计、时间序列预测等领域,都得到了长足的发展。Vapnik最优分类(超平)面SVM的机理是寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区

域最大化。()0wxb•+=23广义最优分类面-24⚫当线性不可分时,SVM的主要思想是将输人向量映射到一个高维的特征向量空间,并在该特征空间中构造最优分类面。()()()()()12x,,...,Tlxxxx→=代替输入向量x,则可以得到最优分类函数为:()()()()()1sgn

sgnliiiifxwxbayxxb==•+=•+25➢Gaussian核函数:➢Polynom核函数➢Vanilladot线性核函数➢双曲切线核函数➢Laplacian核函数➢Bessel核函数()dTcyx.k+

=yx()dTc)y(ax.k+=yx()c)y(axtanh.kT+=yx26核函数SVM中不同的内积核函数将形成不同的算法。27预测模型不同判别方法结果1.投票法:选取多数类结果(例如:2个或者2个以上预测模型结果为恶性)作为最后病例的预测结果;2.并联法:只要有一个预测模型结果判断为恶性,此

病人最终判断为恶性结果,否则为良性;3.串联法:只有3个预测模型同时判断为恶性,此病人最终判断为恶性结果,否则为良性;4.综合法:合并轴状位、冠状位、矢状位数据集,建立一个预测模型,其结果作为最终结果。病例基本信息

分析结果良性恶性统计值P值性别N(Missing)84(0)252(0)0(卡方检验)1.0000女性n(%)50(59.52)150(59.52)男性n(%)34(40.48)102(40.48)年龄N(Missing)84(0)252(0)3.45(秩和检验)0.0006Mean(Std)54

.10(13.57)59.90(12.68)Median(Q1~Q3)57(46.5~63)61(53~69.5)Min~Max21~8025~83良恶性病例人口学特征分析不同评价方法支持向量机预测模型结果29利用

病例人口学特征、环境遗传信息和结节形态学信息等综合性信息,建立支持向量机预测模型。基于人口学、环境遗传和结节形态学信息建立预测模型结果结论:基于三正交位CT图像,结合多方面信息,采用大数据支持向量机分类分类预测方法

,可以有效提高肺癌诊断正确率,辅助放射科医生进行辅助诊断肺癌。32数据挖掘软件及其实现方法33YourtextR是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。R是一个有着统计分析功能及强大作图功

能的软件系统,是由奥克兰大学统计学系的RossIhaka和RobertGentleman共同创立。在R的官方网址上,选择网站镜像http://cran.r-project.org/mirrors.html2R软件31R软件R

编辑器:编辑程序选择运行RConsole:运行过程提示错误等http://www.r-project.org/34支持向量机R语言实现◼library(kernlab)/加载支持向量机程序包/◼setwd(“D:\\ku”)/设置当前数据库路径/◼datayuce=rea

d.csv(“a.csv”,header=T)/导入预测集数据/◼dataxunlian=read.csv(“b.csv”,header=T))/导入训练集数据/◼svmModel<-ksvm(as.matrix(dataxunlian[1:5]),◼as.f

actor(dataxunlian$x),◼type=“C-svc”,kernel=“rbfdot”,C=10,cross=4))/核函数选择/◼pre=predict(svmModel,datayuce[1:5])◼write.c

sv(data.frame(pre,class=datayuce$x,zu=datayuce$no),file="result.csv"))/输出结果到result.csv/◼table(pre,class=datayuce$x)/结果整理/35支持向量机36•WEKA(WaikatoE

nvironmentforKnowledgeAnalysis)37WEKA作为一个公开的数据挖掘工作平台,用于非商业目的的研究行为,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类、回归、聚类、关联规则以及在新的交互式界面上的

可视化。38◆STATA该软件是美国ComputerResourceCenter研制的统计软件,目前的12、13版本就可以实现数据挖掘。◆SASforwindows:国际权威的统计软件,有专门的数据挖掘模块。◆SP

SSforWindows:该软件是一个统计专用软件,界面很友好。在19.0之前的版本需要加专门的Clementine模块;19.0之后版本因有modeler,可直接做。39基于大数据进行数据挖掘,采用大型服务器可以提高运行

速度。4041知识回顾KnowledgeReview

小橙橙
小橙橙
文档分享,欢迎浏览!
  • 文档 25747
  • 被下载 7
  • 被收藏 0
相关资源
广告代码123
若发现您的权益受到侵害,请立即联系客服,我们会尽快为您处理。侵权客服QQ:395972555 (支持时间:9:00-21:00) 公众号
Powered by 太赞文库
×
确认删除?