【文档说明】医学课件大全生物信息学概述.ppt,共(18)页,782.624 KB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-245515.html
以下为本文档部分文字说明:
生物信息学概述❖徐燕❖生物信息学产生的背景❖生物信息学的定义和研究内容❖生物信息学的研究方法❖软件开发一、产生的背景➢1990,由美国能源部(DOE)和国立卫生研究院(NIH)提出并提供资助,被称为生命科学“登月计划”的人类基因组计划(HumanGenomeProject,HGP)。➢HGP的主
要任务是:人类基因组以及一些模式生物体(细菌、酵母、线虫、果蝇等)基因组的作图、测序和基因识别。即以测定基因组的序列数据为出发点,随后对其进行分析解读,确定基因数量,预测各基因的功能,搜索疾病基因,比较不同基因之间的差别,以达到了解和认识生命的起源、重
间和个体间差异的起因,以及疾病产生的机制、长寿与衰老等生命现象的本质,并造福人类。➢该计划一经提出,很快扩展成为世界范围的研究计划。经过美、英、13、法、德和中国科学家的共同努力,至2000年6月26日完成了工作草图;至2001年2月12日完成并公布了准确、清晰完整的人类基因
组图谱。二、定义和研究内容❖1.定义❖现代生物信息学是现代生命科学与信息科学、计算机科学、数学、❖统计学、物理学和化学等学科相互渗透而形成的交叉学科,是应❖用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信❖息的采集、存储、传递、检索、分析和解读,以帮助了解生物学❖和遗传学
信息的科学。❖从其研究所涉及的学科上看,生物信息学是集生物学、数学、信❖息学和计算机科学一体化的一门新的科学;❖从其研究的主要内容看,基因组信息学、蛋白质结构模拟以及药❖物设计是生物信息学三者有机结合的重要组成部分。❖2.研究内容❖①生物信息学
虽涉及许多学科,但其内涵十分具体,范围非常明❖确。因其伴随基因组研究而产生的,因此其研究内容就紧随着基❖因组研究而发展,其核心是基因组信息学。❖②生物信息学还利用基因组中编码区的信息进行蛋白质空间结❖构的
模拟和蛋白质功能的预测,并将此类信息与生物体和生命过❖程的生理生化信息相结合,阐明其分子机制,最终进行蛋白质、❖核酸的分子设计、药物设计和个体化的医疗保健设计。❖③生物芯片研究。生物芯片通常指通过微加工技术和微电子技术❖在固体芯片表面构建的微型生物化学分析系统,能够高速率、高❖通量地完成对细胞、蛋
白质、DNA以及其他生物组分的检测并实❖现分析过程的连续化、集成化、微型化和自动化。❖世界上第一台计算机是美国于1994年11月在实验室研❖制成功的。生物计算机的主要材料之一是生物工程技❖术产生的蛋白质分子,并以此作为生物芯片。在这种❖芯片中,信息以波
的方式传播,运算速度比当今最快❖的计算机快10万倍左右,能量消耗仅为普通计算机的❖几亿分之一,而存储信息空间仅占百亿分之一。制造❖生物计算机,纳米技术是关键。三、研究方法❖借助于计算机科学、信息科学及其他学科的共同参与,人们发展了生物信息的多种分析方法,其中最基本的方法
有序列对比、结构对比及功能对比预测法。❖①序列比对预测法❖序列比对是以核酸和蛋白质序列为依据,来比较两个或两个以上核酸或蛋白质在碱基、氨基酸水平上的相似性和不相似性。❖②结构比对预测法❖结构比对的基本问题是比较两个或两个以
上蛋白质空间结构的相似性或不相似性。从方法学上来看有演绎法和归纳法两种:前者是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程;后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测蛋白质结构。❖③功能比对预测法❖蛋白质的功能
预测是以目的蛋白为线索力图发现它和功能已知蛋白的相似性。四、软件开发❖SAS(StatisticalAnalysisSystem)是一个模块化、集成化的大型应用软件系统。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告
编制、运筹学方法、计量经济学与预测等等。SAS系统基本上可以分为四大部分:SAS数据库部分;SAS分析核心;SAS开发呈现工具;SAS对分布处理模式的支持极其数据仓库设计。❖SAS系统主要完成以数据为中心的四大任务:数据访问;数据
管理;数据呈现;数据分析。❖SPSS(StatisticalPackagefortheSocialScience)——社会科学统计软件包是世界是著名的统计分析软件之一。❖20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS
,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+。❖目前已经在国内逐渐流行起来。它使用Windows的窗
口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。❖测序分析软件Phred/Phrap/Cons
ed❖Phred/Phrap/Consed是华盛顿大学开发的用于大规模DNA测序的分析软件系统。该系统运行于UNIX环境下,包括phred碱基读取程序、phrap序列组装程序和consed图形化视图。❖Phred采用快速傅立叶变换分析技术,从DNA测序所得到的图形数据中提取DNA碱基排列顺序信息
(即Base-Calling)。❖Phrap是一个基于Swat算法实现序列比较的软件,它能寻找序列间的重叠部分,将高质量嵌合匹配的片段拼接成contig序列,最后生成完整的DNA序列。❖Consed是图形化软件,可用于进一步分析phrap拼接的结果,检查phrap拼接中的错误,从而提高拼接
结果的质量。❖Bioperl(http://bioperl.org)❖Bioperl是一个开放源代码的软件包,源代码可以免费下载、测试和修改。❖Bioperl是perl模块的集合,通过perl模块的重载从数据库中获取不同格式的数据并对其进行处理。❖①在本地和远程数据库中访问序列数
据❖②转换数据库/文件记录的格式❖③对单个序列进行处理❖④搜索相似序列❖⑤建立和操作序列联配❖⑥在基因组DNA上搜索基因和其他结构❖⑦开发机器可读的序列注释❖EST通道化分析系统❖EST(ExpressedSequenceTags)是基因组中被表达
的部分,携带着完整基因的某些片段。现在Genbank中,EST序列已超过300万条,覆盖了全部人类基因的90%以上。国际上1994年开始应用EST数据发现新基因。EST通道化分析系统依靠优秀的酸法和程序支持,对EST数据进行高效率的处理和管理,通过数据库和数据处理模
块寻找新基因并进行其他辅助实验。❖基因组信息学作为一个学科领域,关键是“读懂”人类基因组的核❖苷酸顺序,即全部基因在染色体上的确切位置及各DNA片段的功❖能。具体说,其内涵包括:①要发展有效的能支持大尺度数据需❖要的软件和数
据库;②需产生若干数据库工具,包括电子网络等❖远程通讯工具,能简便地处理日益增长的物理图、遗传图、染色❖体图和序列信息,并在这些数据资料中进行比较;③要研究算❖法和分析技术,用于解释基因组的信息,例如预测功能基因等。返回❖绝大多数生物,包括低等生物和高等生物的
基因组都由脱氧核糖核酸(DNA)组成,少数病毒基因组则为核糖核酸(RNA)。基因组所含有的遗传信息由DNA或RNA分子中核苷酸的排列顺序所决定,它们组成独立的结构单元——基因。❖基因所包含的信息可由特定功能的蛋白质解读,这类蛋白质附着在DN
A或RNA分子的一定位置,起始一系列的生化反应合成基因的编码产物,这一过程称为基因表达。❖基因表达(geneexpression)是指细胞在生命过程中,把储存在DNA顺序中遗传信息经过转录和翻译,转变成具有生物活性的蛋白质分子。❖生命的所有现象都与DNA、RNA和蛋白质的结构与功
能有关。❖遗传信息在世代之间的传递是由DNA的复制完成的。复制使亲代DNA加倍,通过细胞分裂将两份相同的DNA拷贝分配到2个子代细胞中。DNA在复制时偶尔会发生突变与重组,使其所携带的遗传信息改变,它们是生命进化与生物多样性的源泉。❖DNA是一种长链多聚分子,由4种核苷酸组成,这4种核苷酸可以
任何次序排列连接成数百万个核苷酸的长链分子。❖每个核苷酸分子都含有3个组成:脱氧核糖(由5个碳原子组成的核糖)、含氮碱基、磷酸基团。❖碱基配对:位于2条DNA单链中的碱基可以相互配对。❖DNA的双螺旋结构:2条反向
平行的DNA单链彼此相互缠绕组成双螺旋分子。返回