医学大数据分析策略与数据挖掘课件

PPT

阅读 63 次
下载 0 次
页数 42 页
大小 7.271 MB
2023-05-26 上传

下载文档20.00 元 加入VIP免费下载

此文档由【小橙橙】提供上传，收益归文档提供者，本网站只提供存储服务。若此文档侵犯了您的版权，欢迎进行违规举报或版权认领

可在后台配置第一页与第二页中间广告代码

可在后台配置第二页与第三页中间广告代码

可在后台配置第三页与第四页中间广告代码

还剩10页未读，继续阅读

【这是免费文档，您可以免费阅读】

/ 42

下载文档20.00 元 加入VIP免费下载

TA最新上传

文本内容

【文档说明】医学大数据分析策略与数据挖掘课件.ppt，共(42)页，7.271 MB，由小橙橙上传

转载请保留链接：https://www.ichengzhen.cn/view-255613.html

以下为本文档部分文字说明：

医学大数据分析策略与数据挖掘讲座人：郭秀花博士生导师guoxiuh@ccmu.edu.cn单位：首都医科大学日期：2014年11月22日12提纲中心概况医学大数据及其分析策略1中心概况2数据挖掘软件及其实现方法3数据挖掘方法简介及其应用3医学大数据及

其分析策略大数据（BigData）数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。4Volume数据容量巨大：TB到PB级别Velocity出现和更新速度快时效性高Variety数据类型繁多：图片、视频等Value潜在价

值大密度低提纯难度大模拟式存量数字式存量•2000年以前大部分数据是analogdata（模拟式数据）以书、报纸、录像带等存储。特点：数据量较小。•2000年以后digitaldata（数字式数据）大大增加以CD、DVD、硬盘等存储。特点：数据量巨大。2000年So

urce:ResearchersattheUniversityofSouthernCaliforniatookfouryears--1986,1993,2000and2007--andextrapola

tednumbersfromroughly1,100sourcesofinformation.Credit:ToddLindemanandBrianVastag/TheWashingtonPost大数据时代的来临

56医学大数据的应用意义生物标志物识别利用大数据识别有关疾病发生、预后或治疗效果的生物标志物组学研究基因组学，表观组学，蛋白组学，代谢组学，糖基组学，等环境因素，个体行为与各组学关联7公共卫生监测：传染病监测、慢性非传染性疾病及相关危险因素监测、健康相关监测群体性预防。医

学大数据的应用意义8健康管理：通过可穿戴设备对个体体征数据的实时、连续监测提供个体化疾病预防和治疗方案医疗协同和临床决策支持：通过建立专用数据库，调用患者的基因数据、病历信息等大量医学参考数据，辅助疾病的诊断与治疗，实现个体化诊治原则医学大数据的应用意义9可视化信息

：数据与信息图像、多媒体信息可视化，更清晰有效地传达与沟通大数据包含的生物医学信息。医学大数据的应用意义10在生物医学研究领域，大数据：➢环境气象学数据➢医学影像数据➢基因、蛋白等组学数据➢大型临床资料➢复杂的生物和环境

因素研究生物医学大数据的只要特点：高维11科学问题处理方式12条件正态性线性、齐性独立性足够大的样本量变量的20倍......方法多元线性回归分析Logistic回归分析Cox回归分析聚类分析判别分析主成分分析因子分析广义线性模型......➢传统的多元统计方法难以处理和分析医学大数据➢

高维、非线性、非高斯等数据，采用数据挖掘方法，可以提供更高的预测精度。常用的医学多元统计学应用受到制约13数据挖掘方法简介及其应用14数据挖掘概念数据挖掘：是在从大量的数据中提取隐含的、事先未知的，但又是潜在有用的信息和知识的过程。14大数据源定义研究问题模型应用建立模型

模型评估数据准备提取数据15数据挖掘方法概述数据挖掘属性筛选关联分析分类预测回归预测聚类分析随机森林神经网络分类决策树分布估计聚类期望最大化EMK均值聚类层次聚类支持向量机回归回归组合模型广义线性回归神经网络回归LASSO分类回归树支持向量机

高维数据降维属性关联分析购物篮分析朴素贝叶斯肺结节良恶性的判定是CT图像诊断肺癌中的一个难点和关键点。在实际的临床中，肺癌被确诊时80%以上已属中晚期。16数据挖掘方法应用实例矢状位冠状位轴状位➢矢状位图像库➢冠状位图像库➢轴状位图像库三正交位成像应用实例171801基本

信息➢年龄、性别等➢轴位纹理➢冠状位纹理➢矢状位纹理02既往史➢肿瘤病史➢粉尘接触史➢遗传病史➢吸烟史等➢淋巴结是否肿大➢边缘是否光滑➢是否分叶➢结节位置➢有无空泡征等数据集合03影像学检查CT图像纹理04

高维大数据库（变量约1000，样本336例）数据挖掘主要分类预测方法基于肺结节纹理鉴别诊断肺癌最近邻分类决策树神经网络Gradientboosting随机森林支持向量机Lasso回归1919✓各纹理产生3

0，40，50，60个子代（即纹理分别为420，560，700，840个）。每个纹理子代分布为正态分布，均值和标准差与轴位CT图像均值相近；✓设定每个纹理内部子代之间的相关系数为r=0.1，0.2，0.3，0.4;✓分别产生2组数据，设定两组各个变量均值之间的差值为d(0

.01-0.1)。MonteCarlo模拟分析结果2020MonteCarlo模拟分析结果纹理相关系数为0.1时，840个纹理值各预测模型拟合结果纹理相关系数为0.2时，840个纹理值各预测模型拟合结果212122支持向量机支持向量机（SupportVectorMachine,SVM）是美国Va

pnik教授于1963年提出的。在解决小样本、非线性和高维模式识别问题中表现出许多优势，并在一定程度上克服了“维数灾难”和“过学习”等问题。在模式识别、回归分析、函数估计、时间序列预测等领域，都得到了长足的发展。Vapnik最优分类(

超平)面SVM的机理是寻找一个满足分类要求的最优分类超平面，使得该超平面在保证分类精度的同时，能够使超平面两侧的空白区域最大化。()0wxb•+=23广义最优分类面-24⚫当线性不可分时，SVM的主要思想是将输人向量映射到一个高维的特征向量空间，并在该特征空间中构造最优分类面。()()()()(

)12x,,...,Tlxxxx→=代替输入向量x，则可以得到最优分类函数为：()()()()()1sgnsgnliiiifxwxbayxxb==•+=•+25➢Gaussian核函数：➢P

olynom核函数➢Vanilladot线性核函数➢双曲切线核函数➢Laplacian核函数➢Bessel核函数()dTcyx.k+=yx()dTc)y(ax.k+=yx()c)y(axtanh.kT+=yx26核函数SVM中不同的内积核函

数将形成不同的算法。27预测模型不同判别方法结果1.投票法：选取多数类结果（例如：2个或者2个以上预测模型结果为恶性）作为最后病例的预测结果；2.并联法：只要有一个预测模型结果判断为恶性，此病人最终判断为恶性结果，否则为良性；3.串联法：只有3个预测模

型同时判断为恶性，此病人最终判断为恶性结果，否则为良性；4.综合法：合并轴状位、冠状位、矢状位数据集，建立一个预测模型，其结果作为最终结果。病例基本信息分析结果良性恶性统计值P值性别N(Missing)84(0)252(0)0(卡方检验)1.00

00女性n(%)50(59.52)150(59.52)男性n(%)34(40.48)102(40.48)年龄N(Missing)84(0)252(0)3.45(秩和检验)0.0006Mean(Std)54.10(13.57)59.90(12.68)Median(Q1~Q3

)57(46.5~63)61(53~69.5)Min~Max21~8025~83良恶性病例人口学特征分析不同评价方法支持向量机预测模型结果29利用病例人口学特征、环境遗传信息和结节形态学信息等综合性信息，建立支持向量机预测模型。基于人口学、环境遗传和结节形

态学信息建立预测模型结果结论：基于三正交位CT图像，结合多方面信息，采用大数据支持向量机分类分类预测方法，可以有效提高肺癌诊断正确率，辅助放射科医生进行辅助诊断肺癌。32数据挖掘软件及其实现方法33YourtextR是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。R

是一个有着统计分析功能及强大作图功能的软件系统，是由奥克兰大学统计学系的RossIhaka和RobertGentleman共同创立。在R的官方网址上，选择网站镜像http://cran.r-project.org

/mirrors.html2R软件31R软件R编辑器：编辑程序选择运行RConsole：运行过程提示错误等http://www.r-project.org/34支持向量机R语言实现◼library(kernlab)/加载支持向量机程序包/◼set

wd(“D:\\ku”)/设置当前数据库路径/◼datayuce=read.csv(“a.csv”,header=T)/导入预测集数据/◼dataxunlian=read.csv(“b.csv”,hea

der=T))/导入训练集数据/◼svmModel<-ksvm(as.matrix(dataxunlian[1:5]),◼as.factor(dataxunlian$x),◼type=“C-svc”,kernel=“rbfdot”,C=10,cross=4))/核函数选择/◼pre=pr

edict(svmModel,datayuce[1:5])◼write.csv(data.frame(pre,class=datayuce$x,zu=datayuce$no),file="result.csv"))/输出结果到result.csv/◼table(p

re,class=datayuce$x)/结果整理/35支持向量机36•WEKA（WaikatoEnvironmentforKnowledgeAnalysis）37WEKA作为一个公开的数据挖掘工作平台，用于非商业目的的研究行为，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，

分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。38◆STATA该软件是美国ComputerResourceCenter研制的统计软件，目前的12、13版本就可以实现数据挖掘。◆SASforwindows：国际权威的统计软件，有专门的数据挖掘模

块。◆SPSSforWindows：该软件是一个统计专用软件，界面很友好。在19.0之前的版本需要加专门的Clementine模块；19.0之后版本因有modeler，可直接做。39基于大数据进行数据挖

掘，采用大型服务器可以提高运行速度。4041知识回顾KnowledgeReview

小橙橙

文档分享，欢迎浏览！

文档 25747
被下载 7
被收藏 0

TA的店铺

医学大数据分析策略与数据挖掘课件

部编版历史中考一轮复习课件全套

专题复习俄国近现代的发展变化课件-人教版

专题04-世界资本主义制度的确立和发展课件

中考系统复习3-中国现代史-1.中华人民共和国的成立和巩固_人教版历史九年级名师课件

中考历史总复习第一编教材知识梳理第11讲中华民族的抗日战争课件

中考历史主题五-中华民族的抗日战争课件

中考历史总复习第二编热点专题速查专题7大国崛起与大国关系三年两次课件

中考历史总复习第二编热点专题速查专题1我国统一多民族国家的形成发展与巩固课件

中考历史专题复习对外关系-教学课件-人教版

中考历史复习专题四大国发展史及重要大国关系课件