【文档说明】生物医学文本挖掘及其应用课件.ppt,共(115)页,5.070 MB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-252806.html
以下为本文档部分文字说明:
生物医学文本挖掘及其应用目的•介绍生物信息学文本挖掘工具•文本挖掘不再是信息专业的领域•例子:二者关系–进行性多灶性白质脑病(progressivemultifocalleukoencephalopathy,PML)–抗体antibodies•Monoclonalanti
bodies,efalizumab(依法珠单克隆抗体)自然语言处理•让计算机替我们看文献吧!•比较难:–计算机需要专门的知识才能读懂文本。•自然语言处理(NaturalLanguageProcessing,NLP):专门训练计算机掌握这种知识的学科。•生物医学文本挖掘(Biomedi
caltextmining)是一个专门处理生物学、医学和化学文本的分支学科。也叫BioNLP•有些人把NLP当做textmining的同义词。Biomedicaltext•生物医学文本的格式多种多样:–病历–科研论
文–序列注释–公共健康指南•文本的内容多样化,如习惯用语–临床有临床上的行话–实验室有自己对蛋白的命名方式•这种差异造成了文本挖掘应用往往面向特定类型的文本。–尤其是对Medline文摘记录的分析。•易获取•免费5基本概念(1)•术语(Term
):专门领域里的名称。•术语集(terminology):术语的集合。–生物医学文本中到处是术语,是医学知识的基本构件。–如各种细胞的名称,蛋白质、医学设备、疾病、基因突变、化学物质名、蛋白质域的名称。•名称如此重要,需要在文本中识别之,这个工作称为生物医学文献中的命名体
识别(NER,NamedEntityRecognition)。基本概念(2)•尽管术语的定义似乎很明确,但是很难精确定义。•earlyprogressivemultifocalleukoencephalop
athy•Referto•earlyprogressivemultifocalleukoencephalopathy•progressivemultifocalleukoencephalopathy•multifoc
alleukoencephalopathy•Leukoencephalopathy基本概念(3)•Terminology:手工构建的,因此是受控的。–HUGO:基因术语集–ICD:国际疾病分类法。–GeneO
ntology:基因本体。•不仅仅是术语列表,还包括:–术语表+同义词=thesaurus–术语表+术语之间的关系=taxonomies,ontology•一旦一段文本与其中一个词表对应上,就和其他资源建立起联系了。人工标引•手工匹配Me
dlineabstractsMedicalSubjectHeadings(MeSH)Leukoencephalopathy,progressivemultifocal910genenormalization•自动匹配:recognizingnamesofgenes
Medlineabstractsmappingthemtotheircorrespondinggeneidentifiers(e.g.,EntrezGeneID)11HGNCdatabaseofhumangenenamesH
UGOGeneNomenclatureCommittee网上在线检索的基因名称信息14下载的基因名称信息NER的原理文本(PubMedAbstracts)软件名称(基因名,蛋白质名)词表词表之间的联系•词表太多,又创建了词
表,把术语集匹配起来,词表之词表,超级词表。meta•BioThesaurus:多个词表中蛋白质的同义词•UnifiedMedicalLanguageSystem(UMLS):一体化医学语言系统,120多个词表,4百万个术语。18术语识
别工具•Whatizit:识别多种术语,通过网页。•Abner:单机版,识别5种术语:蛋白、DNA、RNA、细胞株、细胞类型。•更专指的术语识别工具:–PepBank:用于肽类–LSAT:用于altern
ativetranscripts–提高PubMed检索效果:semedico,novo|seek–GoPubMed/GoGene2425•A(Whatizit):蛋白-蓝色,疾病-深红,基因本体-浅红,化学物质-深红
,物种-红色•B(ABNER):蛋白和细胞株•C(BIOCreAtIvEmetaserver)发现关系•识别术语之后,下一步自然是寻找术语之间的关系。•发现关系的最简单途径就是共现:–在同一段文字中同时出现的两个术语可能有关
联。–例如,某种蛋白质与一种疾病总是在同一文摘中出现,有理由假设该蛋白与疾病的某个方面有关。–共现的次数越多,越有意义。可以定量排序,通过统计处理排除偶然的关联。27关联度•假设有t1和t2两个词共现,最简单的信度指标就是含有这
两个词的文章数c(t1t2),但是要标准化,去掉两个词各自出现频次对共现次数的影响。•点间互信息•p为文章数除以文章总数。关系抽取:共现•GoDisease:•输入‘‘leukoencephalopathy,progressive
multifocal’’[mh]返回结果:•所有提及PML的文摘中的基因。•出现次数越多的基因,越可能与PML有关联。如果某基因在PML中不成比例地高于其他疾病,则该基因可能与PML有特殊关系。关系抽取:
确切关系•明确描述的关系:比共现更好的证据。•例如:‘‘WedescribeaPMLina67-year-oldwomanwithadestructivepolyarthritis(多关节炎)associate
dwithanti-JO1antibodiestreatedwithcorticosteroids’’–PML与抗-JO1抗体有明确关系。–将这种关系简化为三元体:两个名词+一个动词。–PMLisassociatedwithanti-JO1antibodies•识别动词:–词
性标注:part-of-speech(POS)tagger•三元体表述因其简单而功能强大,但是忽略了文章中的重要的细节。比如有些证据是来自于临床病例报告。SemanticKnowledgeRepresentation•S
KR:是基于UMLS进行自然语言处理、提取文献中概念的系列在线工具。其中MetaMap是SKR系统的核心组件。MMTx是完成MetaMap功能的Java工具包,它进行的分析是语义层次上的分析。MetaMap工作原
理MetaMap工作原理:切分•“ocularcomplicationofmyastheniagravis”(重症肌无力的眼部并发症)•“ocularcomplication”和“ofmyastheniagr
avis”•“ocularcomplication”分为“[mod(ocular),head(complication)]MetaMap工作原理:产生变形体•Ocular{[adj],0=””}–Eye{[noun],2=”s”}同义词•Eyes{[noun],3=”si”}同义词的复数•Opti
c{[adj],4=”ss”}同义词的同义词•Ophthalmic{[adj],4=”ss”}同义词的同义词–Ophthalmia{[noun],7=”ssd”}同义词的同义词的变形–Oculus{[no
un],3=”d”}变形–Oculi{[noun],4=”di”}同义词的复数检索候选词及候选词的评价•检索超级词表,检索到包含有至少一个变形体的候选字串集合。•计算出与输入的短语词相匹配的候选词,然后用4种指标的加权平均组成的语言学评价函数,计
算输入短语与候选词之间的匹配程度:–中心度:即包含中心词;–变形情况:距离倒数的平均值;–覆盖面和内敛度:测量候选词与文本的匹配程度和有多少个片段•按照匹配程度排列这些候选词。关系抽取:PPI•protein-pr
oteininteractions(PPI):文本挖掘的重头戏•利用三元体表达,构建PPI网络,节点是蛋白质,动词为边。•分析文本挖掘出来的PPI网络时,应当注意阅读和理解支撑信息。–例如,蛋白质间相互作用可以是直接的,也可以是间接的,取决
于动词•直接动词有tobind,tostabilize,tophosphorylate•间接的动词有toinduce,totrigger,toblock。•文献中描述的蛋白质相互作用的不同性质部分地反映了所采用的实验方法和相
互作用本身的性质。•常用的捕获文本变异的方法就是把各种表达方式辨认出来,并写下捕获这些变异的规则。–捕获磷酸化的模式,应当依次含有:•一种酶的名字•磷酸化的动词•一种基质的名字发现关系的工具•FACTA:Medline文本中概念共现情况。•MedGene和BioGene:利用共现发现基因优先级
别。•Endeavour和G2D利用文本和其他数据源分析基因优先级别。•PolySearch利用启发式加权技术,给不同的共现不同的权重。•Anni使用文本轮廓测量术语之间的关系。•iHOP:挖掘PPI最流行的工具。•RLIMS-P利用
语言模式发现磷酸化过程中的激酶、基质和磷酸。•E3Miner发现泛素化,包括上下文信息。GoDisease+iHOP+Cytoscape发现:Discovery•Besidesfindingrelationships,textminersarealsointereste
dindiscoveringrelationships•Swanson:undiscoveredpublicknowledge•【见例子1】文本挖掘的应用实例–Swanson关联研究及其工具•Arrowsmith的使用•Bitola的使用–用文献轮廓挖掘微阵列表达数据
•DamienChaussabel•MedlineR背景与意义发表文献研究深入知识分裂fragmentationofscientificknowledge穷经皓首并老死不相往来DonR.Swanson的研究•跨学科间一定存在着潜在的未被发现的关联•文献间隐性的关联•如
何发现隐性关联?–寻找非相关互补性文献•text-basedinformatics•literature-baseddiscoveryDonR.Swanson的研究•两种互补的文献:–一类文献(AB):摄入A可能导致某种生理改变B–另一类文献(
BC):B作用于某种疾病C–即A作用于C。•两种非相关的文献:–两种文献从没有或很少被共同引用并且也不相互引用。•互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构。Medline文献集合DonR.
Swanson的研究潜在的联系雷诺氏病文献食用鱼油文献血液粘稠度红细胞脆性血液粘稠度红细胞脆性闭合式的知识发现ARROWSMITH3.04822Asthmafamous?哮喘名人SYK:脾酪氨酸激酶SYK:脾酪氨酸激酶过敏性鼻炎•Sykinhibito
rsastreatmentforallergicrhinitis.2008•【SYK抑制剂治疗过敏性鼻炎】•AnintranasalSyk-kinaseinhibitor(R112)improvesthesymptomsofseasonalallerg
icrhinitisinaparkenvironment.2005•【鼻内SYK抑制剂(R112)改善公园里过敏性鼻炎症状】痛风•Crystal-inducedneutrophilactivation.IX.Syk-dependentactivationofclassIaphosph
atidylinositol3-kinase.2007•【晶体诱发的中性粒细胞活化:Ia类磷脂酰肌醇3激酶的SYK依赖性活化】•Crystal-inducedneutrophilactivation.VII.Involvemen
tofSykintheresponsestomonosodiumuratecrystals.2001•【晶体诱发的中性粒细胞活化:SYK参与对尿酸钠晶体反应的程度】过敏性鼻炎—SYK—痛风过敏性鼻炎痛风抑制剂治疗中性粒细胞活化晶体诱发PI3KSYKB:基因和分子序列等语义类型
TOLLreceptor可作为生物武器的潜在病毒•能够成为生物武器:致病性,传播性。同时涉及到病毒这两个特性的文章却特别少。•A:病毒毒力遗传方面(virulence-genetic)•C:病毒疾病传播力–病毒
的昆虫媒介传播(insectvectors)–空气传播(air)–在空气中的稳定性(stabilityofvirusesinair)•通过与A和C有共同联系B找出更多符合条件的病毒。•将得到的文献经过一些系列的处理,Arrowsmith列出了三
个有意义的B-LIST(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B)发现科研机构间潜在的合作方向•潜在合作方向–美国斯坦福大学–哥伦比亚大学–医学信息学研究领域•发现科研机构合
作与交流的题目•结果:–更好地体现:相似点(可以合作之处)和不同点(可以相互交流、学习之处)–内容详细、明确:能体现出研究所使用的具体方法和侧重点开放式的知识发现BITOLA•输入单个的概念(疾病A),找到该概念的第一层相关概念并加以归类(药物B)。•从第一层相关概
念(药物B)出发,找到它们的相关概念,并加以归类(基因C)。•检验基因和疾病是否有关联。如果没有,该基因与疾病有潜在的联系而且并没有文献报道。•提示:与疾病、生理学反应或者其他表型相关的新基因、药物或者神经科学。BITOLAsyk内容–Swanson关联研究及其工具•Arrows
mith的使用•Bitola的使用–用文献轮廓挖掘微阵列表达数据•DamienChaussabel•MedlineR运用文献轮廓挖掘微阵列表达数据•Miningmicroarrayexpressiondatabyliterature
profiling–DamienChaussabel–MedlineRDamienChaussabelAlanSher•ImmunobiologySection,LaboratoryofParasiticDiseases,NationalInstitu
teofAllergyandInfectiousDiseases,NationalInstitutesofHealth,Bethesda,MD20892,USA•GenomeBiology2002,3(10):RESEARCH0055.目标•建立一种挖掘技术•该技术以对文献轮廓literatur
eprofiling的分析为基础•文献轮廓:–对于某一个主题(如某基因)而言,有相关文献集合–对于该基因的文献集合,分析某些单词在文摘中出现的频次。文献轮廓基因B基因C基因A相关文献主题词1频次主题词2频次主题词3频次…………主题词n频次研究步骤1
.检索文献2.分析文本3.过滤数据4.聚类分析1.检索文献•从基因开始,分别找到与各种基因相关的论文–标题中含有基因名字的论文。–人类基因命名委员会(HumanGeneNomenclatureCommitt
ee,HGNC):官方名称、缩写、别名1.检索文献•建立数据库–包括HGNC定义的10,500多种已知的人类基因–用PubMed查询格式的URL,例如:proteinkinaseCeta•'PRKCH[ti]ORP
KC-L[ti]ORPRKCL[ti]ORproteinkinaseCeta[ti]')–上述纪录按照GenBank和LocusLink的ID排列–该数据库可以作为Excel表格下载1.检索文献•选70种基因,每一种基因的相关文献以X
ML格式下载•用Excel的宏命令抽取文摘,另存作为文本分析样本PapersonGene70PapersonGene3PapersonGene2PapersonGene12.分析文本•对于每一个基因的相关纪录的内容,分析文摘中单词出现的情况。【TF】•统计文摘中含有特定单词的文献数。【DF】–例
如:对于GADD45B基因的相关文献,有18.7%的文摘中含有单词“Proliferation”。AbstractsonGene13.过滤数据•每一种基因有几万条记录。对文献中发现的每一个单词,标上其出现的频次数。•这些单词大多
数对发现基因信息没有用途:–没有特异性:'if,'because','cell','identified'–很少使用:在很少的文献中出现。•第三类单词:–在某一种基因的文摘中出现频率高【TF】。–在所有文献中出现频率(基准率)低【DF】。–可以提供基因的相关信息。RANTES•Y轴上的点为与
RANTES基因相关的单词,在25%以上的论文中出现过。•随机选取基因,计算这些词的出现率,计算这些词在不同基因文献中出现的平均值。•如果基因足够的话,单词的平均出现率趋于稳定。•出现率低于5%的单词传递有关该基因的重要信息。如infection,secreted,
chemokine等。3.过滤数据•基准率:–在所有已知的人类基因中随机抽取基因(250种)–统计单词出现频率的平均值3.数据过滤•单词过滤的标准:–通过设定基准率(5%),去掉在全部科技文献中经常出现的单词–每一个
单词在每一种基因上的出现率与基准率的差值〉25%–通过两个基因过滤的单词:一个单词只有在至少2个以上的基因中共现才在确定基因关系方面有用。•70个基因,25,000种单词,只保留下来101种。•可以调整单词过滤的阈值:下调阈值,增加了噪音,检索
到更多的单词。3.数据过滤4.聚类分析•通过单词出现情况,给具有同样的文献分布特征的基因进行分组。•经过几轮过滤之后,确定了单词表,将该表用于建立一个单词-基因矩阵。矩阵中对应的是每一种基因和单词出现值。•采用基因聚类分析的软件:Cluster/TreeView聚类分析4.聚类分
析•蓝色:nuclearfactors•橙色:receptor-ligandpair•绿色:interferon-related红色:chemokines紫色:MHCclassIantigen-presentationpathway黄色阴影:单词在文摘中出现的水平
4.聚类分析•基因的功能分组明显与免疫反应有关。–蓝色:控制炎症反应和细胞凋亡的转录因子,这些基因和‘TNF’(theinflammatorymediatortumornecrosisfactor),‘d
eath’或者‘apoptosis’同时出现较多。–绿色:最大的一组基因,与‘interferon’有关(也叫‘IFN’和‘IFN-alpha’,)。STATs基因是干扰素信号传导专门需要的因子。–红色:专门面向趋化因子(chemokines)。–紫色:基因全部是I类MHC抗体表达通路
基因。这些基因专门编码把蛋白降解为肽的蛋白。•根据抽取词所表示的概念可以发现有价值的信息,用于快速探索和评估复杂数据集中的生物学意义。4.聚类分析聚类分析单词出现模式的分析不同关联程度的基因组•通过文献分布特征发现的关联•一组基因在功能上的关联程度用文献轮廓挖掘鼻咽癌微阵列表达数据•黄仲曦,
姚开泰(第一军医大学病理教研室肿瘤研究所)•目的:探索鼻咽癌异常信号通路。•方法:根据鼻咽癌微阵列表达谱,采用基于文献轮廓的数据挖掘方法。从Medline文献数据库中提取与基因相关的文献并分析词的频率,再根据重复发生和共发生的过滤标准提取
功能相关的词。最后根据词的发生频率对基因进行功能聚类。•结果:基因表达谱的112个差异表达基因聚成16组功能类别:4组暗示EBV感染、6组显示鼻咽癌变过程、2组参与能量代谢、1组提示蛋白的异常磷酸化、2组与其它疾病相关、1组与肌肉组织
活性相关。肿瘤发生发展过程中常见的P53和Rb信号通路的异常在本研究中则未发现。•结论:鼻咽癌的发生发展可能由特殊的信号通路引起。用文献轮廓挖掘大肠癌转移芯片表达谱•黄仲曦,孙青,丁彦青,姚开泰(第一军医大学病理教研室肿瘤研究所)•目的:寻找新的大肠癌
转移相关基因。•方法:根据大肠癌转移芯片的表达谱,采用基于文献轮廓的数据挖掘方法,从Medline文献数据库中提取基因的相关文献并分析词的频率,再基于重复发生和共发生的过滤标准提取功能相关的词,最后基于词的发生频率对基因进行功能聚类,进一步结合文献及已有的
分子生物学检测结果进行分析。•结果:发现两个新的可能与大肠癌转移相关的基因TlAM1和NM23H1。GenCLIP文本挖掘的过程•命名体识别•关系抽取•发现知识•掌握原理,会用软件,你就可以探索了!•欢迎你的加入!!R统计分析软件•SPSS简单易用
,而SAS功能强大,更是被统计专业人员乐于采用,尤其是在国外广泛应用。–既定的模块,不能满足需要。•需要人们自己用编程来实现新的方法,R就提供了这样一个很好的平台。•R是由RossIhaka和RobertGentleman所编写的一个专门用于统计分析的软件。–完全免费,可以从网络上任
意下载,不存在版权问题。–R的源代码公开,使得很多统计爱好者可以不断增强R的功能。–在一般统计分析功能上,R并不逊于其它商业统计软件,例如SPSS、SAS等,并且提供一个强大灵活的编程平台。MedlineR•用于Medline
文献数据挖掘的开放式的R资源库•用于医学文献数据挖掘的手写开放性R语言资源库-MedlineR。•MedlineR库包括:1.在NCBIPubmed数据库查找医学文献的程序2.构建共现矩阵的程序3.检索词的网络拓扑结构
的可视化程序。•这个库的开放特性使得读者在R统计程序语言中免费扩展。只用10行代码来分析主题词的相关性。对于生物信息学家和统计学家来说,MedlineR是建立更加复杂的文献数据挖掘应用的基础。MedlineR•为生物医学家和统计学家建立的文献数据挖掘工具的免费资源库
MedlineR的源代码可以从中获得,还提供了个性需求,漏洞追踪和版本控制工具等,以便同行进一步扩展其功能。MedlineRMedlineR•结果是可视化的网状结构:每个节点代表一个基因,每条边代表一个文献中的联系。图1B是在R中用“image”命令产生
的静态图。图1c是Pajek中的交互显示。MedlineR•下载R统计软件(包括XML程序包)•下载Pajek软件•复制粘贴MedlineR的命令•填入需要分析的基因名称•运行R•运行pajekMedPost•PMID1847596#9:–Surprisingly,NO3-i
nhibitedtherateofK+swellingby82%.–Surprisingly_RR,_,NO3-_NNinhibited_VVDthe_DDrate_NNof_IIK+_NNswelling_VVGNby_II82_MC%_SYM._.谢谢