【文档说明】第三章核酸数据库的应用课件.ppt,共(77)页,4.893 MB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-92345.html
以下为本文档部分文字说明:
第三章核酸数据库的应用数据库涉及到的内容主要包括两大部分:数据库组织和数据库开发工具。就核酸数据库而言,前者有NCBI、EBI以及日本生物信息学服务器等;后者包括序列相似性搜索基本工具Entrez,BLAST和FAST
A。核酸数据库的应用包括两个主要方面,即数据库查询(databasequery)和数据库搜索(databasesearch)。数据库查询和数据库搜索是分子生物信息学中两个常用序语。数据库查询是指对序列、结构以及各种二级数据库中的注释信息进行关键词匹配查找。数据库搜
索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。第一节常用的核酸数据库一、GenBank-NCBI核酸序列数据库1、GenBank核酸序列数据库的检索GenBank数据库的简单查询是
在NCBI首页上的Search中直接查询检索窗口利用著者进行查询时,输入格式应为作者的姓加上名的缩写。如:Thomas点击点击也可以用序列登记号(accessionnumber)进行一般查询,如:AF477385点击高级检索是通过NCB
I的Entrez检索系统实现。Entrez是NCBI的数据库检索查询系统的核心。利用Entrez系统,可以检索GenBank和其他数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集,以及有Pubmed获得Medline的生物医学文献数
据。Entrez提供方便实用的检索服务,所有操作都可以在网络浏览器上完成。利用Entrez界面提供的限制条件(Limit键)、索引(Index键)、检索历史(History键)和剪贴板(Clipboard键)等功能实现复杂的检索查询工作
。进入NCBI的Entrez主页,用户可以选择组成Entrez系统的五个数据库之一作为查询起点。如以Nucleotide开始。选择Nucleotide即进入EntrezNucleotidesearch界面,点击Limits进入限定检索界面。如上图。完成各限
制条件后,点击Go即进行检索。2、NCBI中的GenBank数据的格式LOCUSDEFINITION序列名称基因定义ACCESSION序列编号序列接受号或登记号VERSION序列版本号DATE序列提交、创建和更新日期DISCRIPTION序列简要描述KEYWORD
S与序列相关的关键词SOURCE序列的来源种属ORGANISM序列的来源分类REFERENCE参考文献编号或递交序列信息REMARK参考文献评述MEDLINE参考文献交叉索引或递交序列在Medline中的存取号TITLEAU
THER参考文献作者或递交序列作者TITLE参考文献题目JOURNAL参考文献出处FEATURES序列特征表起始COMMENT序列注释信息BASECOUNT序列起始标志ORIGEN序列数据·LOCUSTG29EDGP839bpDNAlinearINV1
8-APR-1998DEFINITIONToxoplasmagondiiDNAencodinga29kDGRA.ACCESSIONY13863VERSIONY13863.1GI:2231107KEYWORDS29k
Daprotein;densegranuleprotein;p29gene.SOURCEToxoplasmagondiiORGANISMToxoplasmagondiiEukaryota;Alveolata;Apicomp
lexa;Coccidia;Eimeriida;Sarcocystidae;Toxoplasma.REFERENCE1(bases1to839)AUTHORSFischer,H.G.,Stachelhaus,
S.,Sahm,M.,etal.TITLEGRA7,JOURNALMol.Biochem.Parasitol.91(2),251-262(1998)PUBMED95665181:Y13863.Repor
tsToxoplasmagondii...[gi:2231107]REFERENCE2(bases1to839)AUTHORSFischer,H.G.TITLEDirectSubmissionJOURNALSubmitted(
16-JUN-997)FischerH.G.,InstituteforMedicalMicrobiologyandVirology,Heinrich-Heine-UniversitaetDuesseldorf,Univ
ersitaetsstr.1,D-40225Duesseldorf40225GERMANYFEATURESLocation/QualifiersCDS79..789Entrez用途检索大分子生物学数据获取GenBank,EMBL等数据库的核酸序列;获取Swiss-prot,P
IR,PRF,PDB等蛋白质序列;从核酸序列翻译到蛋白质的序列;获取基因和染色体图谱;蛋白质三维结构数据及大分子模式(MMDB)等其他生物信息数据库检索。PubMed书目文献数据。Entrez生命科学搜索引擎Entrez跨库检索检索字段限制分子类型选择基因位置限定序
列片段限定数据更新日期限定功能栏核酸序列检索序列存取号基因定义数据库标识符代码物种来源参考文献特性专业评论碱基数原序列复制后,可到BLAST中进行相似性对比二、EMBL-欧洲核酸数据库EMBL数据库共有Genomes、Simplesequencere
trieval和SRS(序列提取系统)三种检索方式。1、Genomes提供已完成测序的基因组数据,用户可以通过生物分类名称以分层点击浏览的方式获取相关信息,通过相关链接,用户可获得大量已完成测序的基因组数据。网址
为:http://www.ebi.ac.uk/genomes2、Simplesequenceretrieval:直接输入序列接受号检索核酸序列。网址:http://www.ebi.ac.uk/cgi-bin/emblfetch3、SRS(序列提取系统):是目前生物信息界应用最为
广泛的数据库系统。网址:http://srs.ebi.ac.uk/检索序列时只需用鼠标点击“Search”,在输入框中输入拟检索的信息即可。SRS的详细信息参见:http://www.sanger.ac.uk/srs/srsman.html三、DDBJ-日本DNA数据库包括G
etentry、SRS、Afgate&TAIS、Homology等几种方法。前四种用于检索DDBJ数据库中原始数据,Homology采用FASTA/BLAST检索对用户提供的序列或片段做同源性分析。1、Getentry:通过登录号检索DDBJ核酸数据库,最多可同时输入10个号码进行检索,各号码之间
用空格或“,”分隔,连续号码可用“-”表示。还可用Locusname、Genename、Productname、P-ID、Clonenumber和Patent号等检索。2、SRS:有快速检索和高级检索两种途径。快速检索可同时选择多个数据库进行检索,并且
它只对来自“ID”、“Molecule”、“Discription”、“AccNumber”、“Keywords”、“Source”“Organism”、“Authors”、“Title”及“Comment”等10个默认字段的信息进行检索。3、A
fgate&TAIS:比较简单的关键词检索途径,在检索框内输入检索策略,点击startsearch按钮即可完成。第二节常用的RNA数据库及软件一、Transterm---mRNA序列和翻译调控元件数据库1、Transterm数据
库简介Transterm数据库由新西兰Otago大学生物化学系构建并维护,是一个mRNA序列和翻译调控元件数据库。Transterm设计的目的是研究mRNA的构成以及翻译过程中的调控信号。Transterm中收录的mRNA序列包括多种功能成分,既可以对一种物种进行分析,也可以借
此进行信息查询。每一个从GenBank内提取的mRNA被分成以下部分:功能成分,起始编码区,终止编码区,即5’-UTR、3’-UTR和翻译信号的侧翼序列。网址:http://www.uther.otago.ac.nz/Transterm.html2、Transterm数据
检索Transterm提供每一物种密码子使用表格,还提供描述mRNA中已知的基序或特征的模式的总结。通过Transterm来源于GenBank的编码区可被分割为5’侧翼、起始区、全编码区、终止区、3’侧翼。在Transterm的WWW界面使用与数据库文件和有关数据库相关联的图表,可以搜
索所有或部分数据库内容,找寻任一条符合条件的模式或用户自定义的模式。二、RDP-11-------核糖体数据库由Maidak等人创建,提供一切与核糖体有关的数据、程序及相关服务计算机程序,包括rRNA在线数据分析、进化分类系统树、rRNA相似序列的排列、序列注释、rRNA
二级结构图以及各种相似序列比较分析和显示软件。网址:http://www.rdp.cme.msu.edu1、简介2、RDP-Ⅱ数据库提供的分析工具(1)ProbeMatch:分析特异探针在数据库中出现的频率(2)SequenceMatch:通过nearestneighbors算法确定与用户序
列最相近的RDP-Ⅱ序列。(3)SequenceAlign:对使用者的数据进行排列,找到与使用者序列最相近的RDP-Ⅱ序列。(4)SimilarityMatrix:计算RDP-Ⅱ和/或使用者序列的相似性/不相似性矩阵。(5)Chimera
Check:检查用户序列是否为嵌合型。(6)AlignmentSlices:从RDP-Ⅱ全排列数据库中抽取兴趣部分,与相邻序列精简压缩为一个序列,突出邻近序列的差异性.(7)SequenceSelection:从动态展示的等级分类中选取序列,选出的序列可被下载并进行RDP-Ⅱ其他软件分析。(8)
T-RFLP:以ABI测序系统格式使用数据,建立一个相似性矩阵。(9)TAPT-RFLP:在RDP数据库中进行“T-RFLP实验”,利于设计与分析。(10)(Sub)Trees:一种Javaapplet,可以用来展示、操
纵种属进化系统树,产生新分支,或选取序列进行其他的RDP-Ⅱ分析。(11)PCA(principalComponentanalysis):对那些较大的序列系统进行图象化处理,PCA可通过网页上的“SopplementaryMateriall
inks”找到。三、RNA二级结构预测借助计算机生物学可以很好地利用已知的RNA序列进行二级结构预测乃至三级结构建模。目前较成熟并实现自动化的软件主要在二级结构预测的水平上。1、ViennaRNA软件包综合了两种算法来预测RNA二级结构:一种是最小自由能的动态规划算
法,另一种是McCaskill的分割函数算法。除RNA折叠外,还可计算给定二级结构的RNA能量、RNA比热及采用字符串联配或编辑计算二级结构间距离,还为反折叠提供一种算法,搜索给定二级结构的RNA序列。2、MFOLDZuker的主
页含众多RNA结构站点的超链接,作为RNA相关网站的导航站点。该站点可以下载最新mfold软件,也可以将序列提交给Zuker的mfold服务器完成。其中RNAstructure是Zuker预测RNA二级结构的Wind
ows9X/WindowsNT版本,可以免费下载。3、RNAdraw其主页详细介绍了程序的安装、原理、使用和前景。大多数RNA二级结构预测均可在大型计算机上完成,一般实验室不具备这些条件。4、RNA世
界可能是最全面的RNA站点,其超链接包括各种数据库站点、网络工具、序列、二级结构以及相关软件。可以很方便地根据PDB(proteindatabank)代码或者NDB(nucleicaciddatabase)代码来查找所需要RNA的结构信息,同时提供包括研究
方法、参考文献、可视化图象软件及相关数据库等信息。5、其他核酸数据库HIVDatabaseHIV序列数据库、IMGTImMunoGeneTics数据库;dbEST表达序列标签数据库、BERLIN5SrRNA数据库;EPD真核启动子数据库。第
三节核酸同源性序列比对的策略和方法序列比较的根本任务是:–发现序列之间的相似性–辨别序列之间的差异目的:相似序列相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系数据库搜索就是一种基于两两比较的序列比对,因为它为两个序列的功能片段之间的相互关系提供一个非常明确的图谱
。较多序列的比对是序列比对的一个重点方向,本节只介绍两亮序列比对。一、数据库的相似性搜索对于一个新序列的分析首要任务就是将其与各种数据库进行比较搜索,发现是否存在同源序列。数据库相似性搜索能够从数据库海量中挑选出相关联的序列。最佳方式是搜索几个不
同的数据库以发现最大可能多的同源序列。二、BLAST简介BLAST和FASTA是当前应用最广泛的程序,最新版的BLAST和FASTA中已消除原有各自局限性。综合程序速度和敏感性,本节介绍NCBI中的BLAST程序。BLAST(basiclocalalignmentsearchtoo
l,局部序列相似性对比工具)集速度、敏感性、弹性与统计处理的最佳组合于一身,能迅速找到非空位的相似片段。在报告相似性的同时,也报告这个相似性片段出现的可能性。BLAST集成了一系列程序进行核酸和氨基酸序列不同类型的搜索,采用卡林氏统计描述结果的显著性。BLAST是NCBI提供的
用于核酸或蛋白质序列相似性对比分析的一个软件,已发展到包括BLASTP,BLASTN,BLASTX,TBLASTN,TBLASTX,MEGABLAST,PSI-BLAST,PHI-BLAST,RPS-BLAST等多个软件和应用工具的多功能序列分析程序。1、B
LASTN:最早的BLAST程序,用于鉴定测序所得序列和查找与之相似的序列。系最常用BLAST软件。程序数据库查询简述blastpblastnblastxtblastntblastx蛋白质核酸蛋白质核苷酸(翻译)核酸(翻译)蛋白质核苷酸核酸(翻译)蛋白质核酸(翻译)可能找
到具有远源进化关系的匹配序列适合寻找分值较高的匹配,不适合远源关系适合新DNA序列和EST序列的分析适合寻找数据库中尚未标注的编码区适合分析EST序列2、MEGABLAST:用于鉴定一个未知的核酸序列。若要了解测得一个未知核酸序列是否已发表在公开的核酸数
据库中,以及其相关的生物研究文献时,这是一个最好的工具。它可有效地找到与序列相近的其他序列。3、DiscontiguousMEGABLAST:与MEGABLAST相似,主要用于相近的序列段比较短、并且相邻的序列段不连续的搜索。相近序列不易查找时,该工具可以提高查询灵敏度和查
询效果。4、BLASTP:为查询蛋白质序列设计的软件,主要用于鉴定蛋白质的氨基酸序列和在数据库中查找相似的序列。既可通过找到相似的已知蛋白质的功能来鉴定一个未知的蛋白质序列的功能,也可用于两个或多个蛋白质序列的比较。5、PSI-BLAST(点位重心BLAST):最灵敏的BLAST程序,通过
它可以找到一个蛋白质的远亲序列。6、PHI-BLAST(特异片段重心BLAST):可以指定某一个蛋白质序列片段,并以这个片段为重心查询相关蛋白质序列。7、BLASTX:把所需查询的核酸序列翻译成氨基酸序列,再在蛋白质数据库中查找。LBASTX可以将核酸序列翻译成有6种可能的氨
基酸序列后在进行查寻,对编码区所有三联密码的组合所翻译的氨基酸序列都查寻,提高了查寻灵敏度。8、TBLASTN:与BLASTX相反,TBLASTN蛋白质序列翻译成可能的6种三联密码核酸序列,对寻找相似功能的核酸序列特别有用。多用于EST和大规模测序所做的序列分析,对三联密码的错位
有很高的容错度。9、TBLASTX:把要查寻的核酸序列和进行比较的核酸序列都翻译成6种可能的氨基酸序列后进行比较。10、RPS-BLAST:用于鉴定某些进化上比较稳定的蛋白质功能片段。数据来源于NCBI的CDD数据库。11
、CDART(conserveddomainarchitetureretrievaltool):用于筛选特定蛋白质数据库中所有的蛋白质功能片段和功能片段结构,并得到含有某一个或多个功能片段结构的所有蛋白质序列。
三、BLAST应用举例顺序:①建立BLAST搜索,确定查询序列;②选择适当的搜索程序和相应的数据库,以及参数;③发送查询序列;④读取BLAST结果。1、具体步骤(1)确定查询序列;(2)选择数据库和搜索程序:数据库为核酸数据库,程序为BLASTN;(3
)选择默认的允许非空位的搜索;(4)E值限制,默认为10;(5)用默认矩阵BLOSUM62;(6)最后确认结果输出格式。确认以上参数无误后,点击“BLAST”按钮,同时也可以选择E-mail回复结果。2、结果分析BLAS
T结果分两部分,即图形化结果和文字结果,后者又分为有意义的序列排列、两两对比结果、统计结果三部分。选择对比程序基因组对比特殊对比将序列数据库中的复制序列在此粘贴点击(1)图形结果得分高低以不同颜色表示:≥200红色,80-200分红色,50-80绿色,40-50蓝色,<40黑色,也表示同源性由
高到低。2、文字结果搜索的分值高低排列,即同源性从高到低。排列第一的是查询序列本身。右侧分别为随机分值(score,S值)和期望值(expect,E值)。E值是特定匹配中基本的随机噪声。S值增加,E值呈指
数性减少,即随机噪声降低,表明序列同源性较高。经验提示,DNA序列具有75%以上的同源性才具有潜在的生物学意义,但这种结果很难把握,必须实验验证,或要求研究者具有丰富的序列分析经验。序列对比报告对比资源类似性图谱对比图谱报告数据库标识符基因定义
类似性积分E值为匹配期望值。说明可以找到与搜索序列相匹配的其它序列的几率。E值越接近零,越不可能找到其它的匹配序列,其背后的含义就是E值越少,匹配度越好点击可得待检序列与库存序列对排基因表达库链接单基因库基因信息库人类染色体上的抗肿瘤基因序列对排表相关文献链接
对排序列不一致处序列对排报告第四节新序列的提交提交信息到NCBI、EBI和DDBJ的过程非常简单。介绍三种方式:一、Internet的方式,如BankIt,为在线序列数据提交工具,基于互联网直接将数据库提交给GenBank的序列提交工具,提交的序列必须是提交者测定的DNA/RN
A序列。输入的格式是FASTA;由E-mail给予回复;有基本的GenBank文本格式文件、GenBank存取号和完整的GenBank文本格式。BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息以及序列本身的信息等。用户提交序列
后,会从电子邮件收到自动生成的数据条目。GenBank的新序列号及完成注释后的完整记录。用户还可在BankIt页面下修改已经发布序列的信息。BankIt适于独立测序工作者提交少量序列,不适于提交很长的序列,EST序列和GSS序列也不用BankIt提交。
二、通过Sequin(authorin)提交。可将序列提交给GenBank、EMBL和DDBJ及在线更新。能处理简单和复杂提交。Sequin的使用说明可祥见网页。三、通过Webin提交,该程序被推荐作为EMB
L序列提交的互联网界面。网址:http://www.ebi.ac.uk/Tools/index.html数据提交前可以修改和审查;有成批提交25项或更多相关序列的程序,也有EBI载体剔除软件。GenBankSubmittoGenBank1