【文档说明】医学结构化数据挖掘课件.ppt,共(56)页,1.543 MB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-255910.html
以下为本文档部分文字说明:
2023年5月27日星期六医学数据仓库与数据挖掘1—第10章—数据挖掘数据挖掘在医学中的应用第十章医学数据挖掘•医学结构化数据挖掘◆医学结构化数据挖掘概述◆医学结构化数据挖掘的应用研究•医学文本数据挖掘◆
文本数据挖掘概述◆医学文本数据挖掘的应用研究2医学数据挖掘医学数据挖掘面向整个医学数据库或医学信息集合提供知识和决策,是医疗决策支持系统的重要组成部分。•医学数据结构化医学数据:数据结构明确、内容经整理可有效存储和处理。如医学病历。非结构化医学数据:本
身无规范结构、内容较复杂。如医学多媒体数据、文本数据等。3医学结构化数据挖掘◆医学结构化数据挖掘概述◆医学结构化数据产生•医学结构化数据来源日常医疗实践,如医学影像处理的PACS系统、临床检验的LIS系统等信息化管理系统。患者角度:登记挂号、就诊、开单检查…4医院角度
:各科室信息的统计和汇总。非结构化数据(如手写病历、检验报告单)经录入可以转化为结构化数据。◆医学结构化数据挖掘医学结构化数据挖掘中医学结构化数据存在形式:文献数据库、临床数据库。下面从三方面介绍医学结构化数据挖掘:–中医药文献数据库挖掘对象:包含于中医
药古籍文献以及当前的研究文献中的海量中医药数据。→提取知识。6⚫辛亥革命以前:中医药学古籍文献13000多种⚫辛亥革命以后:中医药图书12000多种,中医期刊230多种1987~2003年发表:中医药文献53070
0篇–医院信息管理系统医生诊病问题:个人临床经验有限,难以从复杂医学结构化数据挖掘医学结构化数据挖掘混乱数据中提取知识。挖掘对象:存储于HIS的大量病案数据→为医生提供极具价值的知识,优化传统医疗方案。HIS=MIS+CISHIS:医院
信息管理系统;8MIS:管理信息系统→处理医院内部管理方面CIS:临床信息系统→处理以患者为中心的一系列相关信息医学结构化数据挖掘医学结构化数据挖掘挖掘示例:从CIS数据库分析某种疾病治疗过程中诱发其他疾病的概率与时间的关系等。–方剂数据库挖掘对象:医药复方。→挖掘隐含于复方的对疾病认识和治疗的科
学规律,补充10中医药专家系统知识库。复方新药的经验开发模式:根据自身知识与经验组方→临床验证→疗效好→药理学、中药化学研究。复方新药的新开发模式:利用数据挖掘和KDD技术开发研制中药复方。医学结构化数据挖掘医学结构化数据挖掘◆医学结构化
数据挖掘的应用研究◆文献数据库的数据挖掘大量的中医药信息的流失影响中医药学的发展→建设中医药科技信息数据库、实现“数字中医学”。目前,国内外已建成的中医药相关数据库有近百个,以文字描述性数据库为主。12方便了研
究。周连菊等建立的“《黄帝内经》计算机检索数据库系统”;南京中医药大学研制出的“针灸腧穴文献资料检索系统”;上海中医药大学研制的“《针灸大全》检索系统”;医学结构化数据挖掘医学结构化数据挖掘陕西中医学院研制的“针灸甲乙经通检系统”;中国
中医研究院研制的“ACULARS针灸文献检索系统”。为研究中医古籍提供了快捷的浏览和检索手段,方便了我们对中医古籍的研究。14医学结构化数据挖掘◆医院信息管理系统中的数据挖掘从完整的病案信息取得统计原始数据,为医疗管理及主管部门的决策提供前瞻性资料。案例:刘丹红
等人用上呼吸道感染病例的病案首页数据和决策树分析法建立病情危重度分类评价模型;15利用贝叶斯神经网络找出抗精神病药物与心肌炎和心脏病发作的关系;粗集理论用于肺癌的诊断、宫颈癌病变的检测等。常用数据挖掘方法有很多种,它们分别从不同侧面、不同角度反映事物的本质:医学结构化数据挖
掘医学结构化数据挖掘⚫统计分析和可视化技术:挖掘不同疾病在不同年龄段的至于时间、治愈率、平均费用等;不同疾病的地区分布情况等。⚫决策树、神经网络、粗糙集等:对病历记录挖掘,构造相应疾病的分类模型,并对每种疾病找出效果较好的治疗方案。⚫关联规则:挖掘哪些疾病并发的
可能性较高,某些疾病与年龄、性别、居住地、17⚫职业、生活习惯等的关系。⚫序列模型挖掘:病人的病情发展情况预测。◆中医药领域的数据挖掘(1)寻找新药先导化合物医学结构化数据挖掘医学结构化数据挖掘随机筛选与意
外发现→定向挖掘用数据挖掘去寻找先导化合物,指导中药新药的研究和开发,缩短中药研究开发的周期。(2)开发中药复方经验开发模式→数据挖掘和KDD技术开(3)研究中药指纹图谱用数据挖掘技术去发现和解析中药指纹图谱潜在信息,评价和控制中药质量及研究中药定量组效之间的
关系。19医学结构化数据挖掘(4)中医药信息化研究对古语言和纯文本为主的中医药理论和实践进行结构化解释,促进中医药信息结构化、中药临床功效的规范化和标准化。◆方剂数据库中的数据挖掘(1)探讨复方配伍规律如姚美村等人用关联规则分析技
术对治疗消渴病的中药复方配伍的科学内涵进行探索性分析研究,建立复方特征数据库。20医学结构化数据挖掘(2)药对研究⚫方剂配伍规律的研究需在药对研究的基础上从简到繁进一步深化;⚫高频用药组合分析是对药对分析的扩展。如浙江大学用Apriori算
法对三个数据库中的方剂进行高频用药的知识发现和比较,与中国中医药对数据库中收录的药对进行对比分析,得到一系列实验结果。(213)开发面向中医药方剂的数据挖掘平台如浙大设计和开发的面向中医药方剂的数据挖掘平台。医学结构化数
据挖掘医学结构化数据挖掘23面向中医药方剂的数据挖掘平台方剂选择系统数据规范加工以及预处理系统挖掘算法系统高频分析系统关联规则分析系统聚类/分类分析系统挖掘算法性能评价系统医学结构化数据挖掘◆中医证候分析(1)辨证论治思维模式→多元化遣方
用药模式利用数据挖掘技术分析病、证、方、药之间的关系和规律,从药方证病的关系分析其制方的思维模式。(2)对中医证候进行聚类挖掘,寻找与某些症状相似的证候。(3)建立和使用针对特殊问题的概化模型基于数据建模建立智能决策支持系统,加速中
医药现代化、规范化和知识化进程。24医学文本数据挖掘◆文本数据挖掘概述◆文本数据挖掘的定义⚫文本数据挖掘定义从大量文本数据中抽取有效、新颖、可理解、最终可用的、散布在文本文件中的有价值的知识,并且运用这些
知识更好地组织信息的过程。25⚫文本挖掘的独特之处(1)文本结构本身是半结构化或非结构化的,无确定形式且缺乏及其可理解的语义;(2)涉及到多个学科领域。多数文本数据库存放的是半结构化数据。医学文本数据挖掘医学文本数据挖掘当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称文本挖掘。◆文本数
据挖掘的分类⚫文本总结抽取关键信息、对文本内容进行摘要或解释。27⚫文本分类按照预先定义的主题类别,为文本集合中每个文本确定一个类别。⚫文本聚类无预先定义好的主题类别,其目标是将文本集合分成若干个簇,要求同一簇内相似度尽可能
大,不同簇间相似度尽可能小。//层次凝聚法,平面划分法医学文本数据挖掘医学文本数据挖掘⚫文本关联分析从文本集合中找出不同词语之间的关系。⚫文本分布分析与趋势预测通过对Web文本的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。29
◆文本挖掘过程(1)特征集的建立描述性特征:文本名称、日期、大小、类型等;语义性特征:文本作者、机构、标题、内容等。(2)特征集的缩减对文本特征向量降维,缩减特征集,包括横向选择和纵向投影。医学文本数据挖掘医学文本数据挖掘横向选择:剔除有噪声文档或文档
过多时仅选部分文档来挖掘;纵向投影:根据挖掘目标选取有用特征,获得代表文档集合的有效、精简的特征子集。(3)学习和知识模式的提取通过分类和聚类,提取面向特定应用目的的知识模式。(4)模式质量评价31对知识模式进
行质量评价,若满足要求则保存;否则返回分析改进进行新一轮挖掘。下面以文本分类来简单介绍结果模式评价医学文本数据挖掘医学文本数据挖掘文本分类的评价指标:查准率和查全率。查准率和查全率反映了分类质量的两个不同方面,故为了公平起见,形成一种新的评估指标,即F1测试值:33实
际分类的文本数分类的正确文本数查准率=应有文本数分类的正确文本数查全率=查全率查准率查全率查准率测试值+=2F1医学文本数据挖掘◆文本数据挖掘的关键技术◆文本预处理目的:去掉那些文本中出现频率高而对识别文本类别
作用不大的词,如“的、地、了”等。一般方法:用高度概括的向量表示文本,将文本集→向量集(即特征集),对向量集分析达到文本集自动分类、聚类、产生摘要等目的。(1)文本的向量空间表示34用文本特征集表示原来文本,实现从非结构化→结构化的处理。特征表示模型有:布尔逻辑型、概率型、向量空间型。
医学文本数据挖掘医学文本数据挖掘(2)文本特征的提取一般特征:名词和名词短语;数字特征:日期、货币、时间和单纯的数字信息等。对文本进行特征标引可以利用自动标引技术。标引:给出信息内容特征的过程;36自动标引:利用计算机技
术自动分析出能够代表一段文本或一篇文章主题意义的词汇(即关键词或主题词)。关键词标引→同义标引词泛滥,效果不好主题词标引→提高标引质量,效果好(3)文本的相似度作用:提取重要段落或语句;文本分类和聚类。医学文本数据挖掘医学文本数据挖掘文本特征向量可由文本与词的相关矩
阵来描述,即其中,表示第i篇文本与第j个词的相关程度,m是文本总数,n是词的总数。利用相关系数S来表示相关性的大小,如Sij表示第i篇文本与第j篇文本的相关系数,则38mnmjminijin
jttttttttt111111]1,0[ijt====nknkjkiknkjkikijttttS11221)(医学文本数据挖掘◆文本分类文本分类:根据文本的特征将其自动分配到预定义的类别。(1)基于
训练集的文本分类方法如基于神经网络的方法、基于遗传算法的方法、基于EM算法的方法、基于文本特征向量相关性的方法等。基于文本特征向量相关性的方法:39⚫用规范化特征向量来构造每一个需要分类的文本⚫用规范化特征向量来构造每一个预定义
类别⚫计算文本特征向量与类别特征向量的相似度来评价分类文本与每一个预定义类别特征之间的相关性。医学文本数据挖掘医学文本数据挖掘(2)基于分类词表的文本分类方法实际问题:一词多类、多词一类、每类中存在带共性的小类。对文本的分类处理借助分类词表来完
成的分类方法。文本分类过程:①从信息库提取一条待分类记录;41②把关键词作为检索键搜索关键词与类主题词联结库,获取类主题词;③通过类主题词查找类主题权重词库表,获取权值和分类号,当取完所有分类号和权值后。进行类号合并与权重求和;医学文本数据挖掘医
学文本数据挖掘④将所有取出的类号进行比较,根据分析结果定类。分析归类一般如下考虑:a)只有唯一的类号,直接归类;b)有多个类号,权值最大的类号只有一个,将文本归入其类;c)有多个类号的最大权值相等,删除
权值最小的类号,在最大权值的类号中选出单一权值43最大值为首选类号,其他相同权值的类号作为辅选类号。◆文本聚类文本聚类是指将文本根据其特征分为多个类或簇。硬聚类、软聚类。医学文本数据挖掘医学文本数据挖掘(1)划分聚类法的原理对于k值,先给定初始分组方案,然后通过反复迭代来改变分组,使得每次改进
后的分组都比前一次好。分组时要求满足:每个分组至少包含一个文本对象;每个文本对象属于且仅属于一个分组(模糊聚类除外)。(2)划分聚类法的步骤典型方法:k-中心点45医学文本数据挖掘具体步骤:①确定要生成的簇的数目k;②生成k个聚类中心作为初始中心点;③依次
计算每个文本与各中心点的相似度;④把当前文本归入与其具有最大相似度的中心点代表的簇;⑤重新确定每个簇的中心点;⑥重复执行步骤3~5,直到中心点不再改变,文本不再重新被分配为止。46医学文本数据挖掘◆文本自动摘要(1)基于统计的自动摘要⚫基本思想通过记录关键词
出现次数来选择摘要句,然后将选择出的摘要句按其在文本信息中出现的次序形成摘要。⚫一般过程①待摘要文本信息录入47②词频信息统计③计算句子的权重④选择候选句子⑤加工生成摘要医学文本数据挖掘医学文本数据挖掘(2)基于
理解的自动摘要⚫基本原理根据读者感兴趣的内容,利用语言学的手段将文章中代表这些信息焦点的文字识别出来,并用语言加以组织,形成一篇语言连贯,语义清晰的文摘。⚫一般过程49①待摘要文本信息录入②文本分析(语法分析+语义分析+句法分析)③文摘初稿的生成
④摘要排版输出(3)模版填写式自动摘要医学文本数据挖掘医学文本数据挖掘以文摘框架为中枢,分为选择和生成两个阶段。选择阶段:利用特征词从文本中抽取相关的短语或句子填充文摘框架;生成阶段:利用文摘模板将文摘框架中的内容转
换成文摘输出。(4)基于结构的自动摘要51适用于科技文献等结构化含义强的文本,不适用于隐含意义强的文本,如诗歌、小说等。常用的基于结构的自动摘要:①关联网络②语用功能医学文本数据挖掘医学文本数据挖掘◆医学文本数据挖掘的应用研究◆中医古籍文献文本数据挖掘⚫确定中医古籍文献领域本体模
型的构造步骤:(1)确定中医古籍文献领域本体的专业领域和范畴(2)考察复用现有本体的可能性(533)列出本体中的重要术语(4)定义类和类的等级体系(5)定义类的属性(6)定义属性的分面(7)创建实例◆现代文献文本数据挖掘(略)医学文本数据挖掘医学文本数据挖掘
55THEEND!知识回顾KnowledgeReview