生物信息数据库与生物信息中心课件

PPT
  • 阅读 85 次
  • 下载 0 次
  • 页数 71 页
  • 大小 8.772 MB
  • 2022-12-05 上传
  • 收藏
  • 违规举报
  • © 版权认领
下载文档30.00 元 加入VIP免费下载
此文档由【小橙橙】提供上传,收益归文档提供者,本网站只提供存储服务。若此文档侵犯了您的版权,欢迎进行违规举报版权认领
生物信息数据库与生物信息中心课件
可在后台配置第一页与第二页中间广告代码
生物信息数据库与生物信息中心课件
可在后台配置第二页与第三页中间广告代码
生物信息数据库与生物信息中心课件
可在后台配置第三页与第四页中间广告代码
生物信息数据库与生物信息中心课件
生物信息数据库与生物信息中心课件
还剩10页未读,继续阅读
【这是免费文档,您可以免费阅读】
/ 71
  • 收藏
  • 违规举报
  • © 版权认领
下载文档30.00 元 加入VIP免费下载
文本内容

【文档说明】生物信息数据库与生物信息中心课件.ppt,共(71)页,8.772 MB,由小橙橙上传

转载请保留链接:https://www.ichengzhen.cn/view-92400.html

以下为本文档部分文字说明:

王禄山计算机应用生物信息数据库与生物信息中心授课大纲生命信息学——生命科学与计算机技术的交叉。生物信息学的研究内容:(1)生物信息中心(2)生物信息数据库及格式。生物信息数据的检索工具——Entrez文献的检索与管理软件——Refer

encemanager序列同源搜索分析工具——Blast核酸、蛋白质序列比对分析软件——DSgene\DNASIS生物大分子空间三维结构显示与分析软件——Rasmol生物图像对比分析软件——ScionImage(NIHimage)生物科学数

据处理软件——Origin1.重要生物信息中心2.重要生物信息数据库3.数据库检索工具4.生物分析相关软件生物信息研究内容一、重要生物信息中心BioinformaticsCentresNCBINationalCenterforBiotechnologyInformation(US)www.ncb

i.nlm.nih.govEBIEuropeanBioinformaticsInstitute(EU)www.ebi.ac.ukDDBJDNADataBankofJapan(JP)www.ddbj.nig.a

c.jpExPASyExpertofProteinAnalysisSystem(Switzerland)www.expasy.chPDBProteinDataBank(US)www.rcsb.org/pdb/CBIPKU北京大学生物信息中心(CN)www.cbi.

pku.edu.cn/chinese/BioSino中国生物信息中心(CN)www.biosino.orgNCBI:http://www.ncbi.nlm.nih.govhttp://www.cbi.pku

.edu.cn/chinese/http://www.biosino.org/二、重要生物信息数据库生物信息学数据的表示形式生物信息学数据的表示形式平面文件(flat-file)–信息在文件中顺序存放且具有特定格式–记录(Entry)通过“获

得号”(accession#)唯一确定–同一文件间和不同文件间信息的联系均通过accession#实现关系数据库(relationalDB)–基于实体联系模型(E-R模型)–表中的记录(record/

tuple)键唯一确定–表之间通过外键建立联系信息表示:关系数据库semanticmappingAttributesRelations查询语义映射和处理过程结果语义匹配生物信息学数据存在的问题信息源分布在世界各地不同的站点上涉及多个数据源的全局问

题无法立刻得到答案–Painfullycollectingunstructuredinformationaroundthesites–Manuallyputtingpiecestogether–Hopefullygettingtherightpicture...

总之,信息源的特点是:–自治的(autonomous)–分布式的(distributed)–异构的(heterogeneous)数据集成DataIntegration数据集成XMLXMLSiteASiteBDataIntegration生物信息学最重要的任务是从海量数据中提取新知识生物数据库的种

类序列数据库核酸序列数据库(EMBL、GenBank、DDBJ)常用蛋白质序列数据库(Swissprot,PIR)结构数据库蛋白质结构数据库(PDB)蛋白质分类数据库(SCOP、CATH)其它数

据库生物数据库的种类序列数据库主要核酸序列数据库:GenBank、EMBL、DDBJ主要蛋白质序列数据库:Swissprot,PIR美国的核酸数据库GenBank〖Banson,D.A.etal.(1998)NucleicAcidsRes.26,1-7〗从1979年开始建设,198

2年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,

数据量增长了近十万倍。核酸序列数据库核酸序列核酸序列是由4种核苷酸的单字母(ATGC)符号排成的序列。蛋白质序列数据库SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上

均建立了镜像(mirror)站点。SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。PIR数据库的数据由美国家生物技术信息中心(NCBI)翻译自GenBank的DNA序列。蛋白质序列MNIQQLALQNIKGNW

RNYKVFFLSSCFAIFASFAYMSVIVHPYMKETMWYQNVRWGLIICNIIIISFFIIFILYSTSIFIEARKKELGLYMLMGATKSNVIGVIMTEQMLIGVFANIFGIGLGIIFLKLFFMVFSMLLGLPKELPIIFDVRAIGGT

FIAYMVVFVVLSFISALRIWNIKIIRLLKEFRTDKKEKKTSMRLCIFGLICLGIGYALALQTTMPTIAFYFFPVSILVFFGTYFSFTHGTAQILELIKRNKKI

MYTYPYLFIVNQLSHRMKENGRFFFLMSMATTFVVTATGTVFLYFSGMQDMWRGGGVHSFSYIEKGTSSHEVFAEGMVEQLLHQYGYDDFQSMSFVGVYASFQSSKGETEIATLMKESEYNQEARKQGQKTYHPKKGSVTLVYYNKYN

HPNMYDQKEIQLQVMNQTYSFVFNGQKEGIQFNYHPSQINGLFFVMHDEDFDGIANKVPDSEKMIYRGYTLPNIENTKELNEDLRKHMKQDDNNAFRSNMELYVNMKAFGDITLFVGSFISIL

FFLTSCSIVYFKWFHNIASDRKEYGALSKLGMTKEEVWRISRWQLCMLFFAPIIVGSMHSAVALYTFHNTIFMDGSLRKVGLFILFYIAACIMYFFFAQREYRKHLD蛋白质序列是由20种氨基酸的单字母符号排成的序列。蛋白质数

据库种类和特点名称维护单位注释冗余度数据量更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SwissProtEBI、SIB完善小不大较慢NRL3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大较快

OWLHGMP一般小大较慢生物大分子三维结构数据库蛋白质结构数据库PDB蛋白质分类数据库SCOP和CATH蛋白质结构库(PDB)实验获得的三维蛋白质结构均贮存在蛋白质数据库PDB(http://

www.rcsb.org/pdb)中。PDB是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。PDB贮存有由X射线和核磁共振(NMR)确定的结构数据。蛋白质结构蛋白质结构存放着构成蛋白质分子的所有原子的三维空间坐标值。蛋白质结构分类数据库

SCOP(StructuralClassificationofProteins)CATH(Class,Architecture,Topology,Homology)蛋白质结构分类数据库SCOP描述了结构和进化关系。SCOP数据库从不同层次对蛋白质结构进

行分类,以反映它们结构和进化的相关性。第一个分类层次为家族,通常将序列相似性程度在30%以上的蛋白质归入同一家族,有比较明确的进化关系。超家族:序列相似性较低,结构和功能特性表明它们有共同的进化起源,将其视作超家族。折叠类型:无论有无共同

的进化起源,只要二级结构单元具有相同的排列和拓扑结构,即认为这些蛋白质具有相同的折叠方式。在这些情况下,结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。蛋白质结构分类数据库CATH类型Class、构架Architecture、拓扑结构Topology和同源性Homology。分类基础

是蛋白质结构域。与SCOP不同的是,CATH把蛋白质分为4类,即a主类、b主类,a-b类(a/b型和a+b型)和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。CATH数据库的第二个分类依据为由α

螺旋和β折叠形成的超二级结构排列方式,而不考虑它们之间的连接关系。第三个层次为拓扑结构,即二级结构的形状和二级结构间的联系。第四个层次为结构的同源性,它是先通过序列比较然后再用结构比较来确定的。CATH数据库的最后一个层次为序列(Sequence)层次,在这一层次上,只

要结构域中的序列同源性大于35%,就被认为具有高度的结构和功能的相似性。对于较大的结构域,则至少要有60%与小的结构域相同。蛋白质结构分类数据库CATH基因组数据库GDB人类基因组数据库AceDB线虫(Caenorhabditiselegans)基因组数据库四、数据库检索工具

EntrezSRShttp://www.ncbi.nlm.nih.giv/Entrez/Entrez--GenBankSRS(SequenceRetrievalSystem)SRS是欧洲分子生物学网

EMBnet的主要检索工具。SRS,SequenceRetrievalSystem,isapowerfuldatabasemanagementsystemdevelopedspecificallyforbiolog

icaldatabases.ThegoalofSRSistoprovideanefficientaccesstodatabaseswithbiologicalcontentsnomatterinwhatformataretheyavailableandallowingforcomple

xsearchcriteria.数据库记录的格式与检索路口核酸/蛋白质数据库记录的组成由于历史原因,各种生物数据库采用了不同的信息格式,许多生物计算机软件也要求特定的核酸和蛋白质序列输入格式。一个数据库记录(entry)一般由两部分

组成:原始序列数据和描述这些数据生物学信息的注释(annotation)。注释中包含的信息与相应的序列数据同样重要和有应用价值,值得注意。序列部分和注释部分两者都有固定格式,以便计算机读取。各个数据库的具体格式又有所不同,大致分成GenBank和EMBL两种风格。GenBank

格式GenBank格式GenBank格式:每个条目都是一份纯文本文件。每行左端或为空格或为识别字,识别字均为完整英文字,不用缩写。为了同embl对照,一并列在下表中。GenBank条目,使用一大批与EMBL和DDBJ数据库统一的关键字。格式可以分成3个部分:1)头部包含关于整个序列的信息(

描述字符),从LOCUS行到ORIGIN行;2)注释这一序列的特性(FeatureTable),为注释的核心部分;3)序列本身(Sequence)。注:所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都在最后一行以//结尾。EMBL格式EMBL格式EMBL格式:

欧洲分子生物学EMBL数据库的每个条目是一份纯文本文件,每一行最前面是由两个大写字母组成的识别标志,常见的识别标志列举在后面的表中。识别标志“特性表”FT包含一批关键字,它们的定义已经与GenBank和DDBJ统一。下欧洲国家的许

多数据库如SWISS-PROT、ENZYME、TRANSFAC等,都采用与EMBL一致的格式。数据库记录注释代码和内容说明EMBL识别标志GenBank识别字意义IDLOCUS序列名称DEDEFINITION序列简单说明ACACCESSION唯一的提取号OSSOURCE序列来源的

物种名OCORGANISM序列来源的物种学名和分类学位置DT建立日期KWKEYWORDS与序列相关的关键词RNREFERENCE相关文献编号,或递交序列的注册信息RAAUTHORS相关文献作者,或递交序列

的作者RTTITLE相关文献题目RLJOURNAL引文出处相关文献刊物杂志名,或递交序列的作者单位RXMEDLINE相关文献Medline引文代码RP相关文献其它注释数据库记录注释代码和内容说明(cont.)EMBL识别标志GenBank识别字意义RCREMA

RK相关文献注释DR相关数据库交叉引用号XX为阅读清晰而加的空行CCCOMMENT评注NIVERSION可更新的序列版本号FHFEATURES序列特征表起始FTFEATURES特性表SQEMBL序列开始标志,后随长度、字母数BASECOUNTGenBank碱

基数目ORIGINGenBank序列开始标志,该行空////序列结束标志,空行一个简单的GenBank记录LOCUSAF0620693808bpmRNAINV02-MAR-2000DEFINITION

LimuluspolyphemusmyosinIIImRNA,completecds.ACCESSIONAF062069VERSIONAF062069.2GI:7144484KEYWORDS.SOURCEAtlantichorseshoecrab.OR

GANISMLimuluspolyphemusEukaryota;Metazoa;Arthropoda;Chelicerata;Merostomata;Xiphosura;Limulidae;Limulus.REFERENCE1(ba

ses1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEAmyosinIIIfromLimuluseyesisaclock-regulatedph

osphoproteinJOURNALJ.Neurosci.(1998)InpressREFERENCE2(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,

Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(29-APR-1998)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBl

vd.,St.Augustine,FL32086,USAREFERENCE3(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.

C.TITLEDirectSubmissionJOURNALSubmitted(02-MAR-2000)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREMARK

SequenceupdatebysubmitterCOMMENTOnMar2,2000thissequenceversionreplacedgi:3132700.FEATURESLocation/Qualifierssource1..3808/organism="Limuluspolyp

hemus"/db_xref="taxon:6850"/tissue_type="lateraleye"CDS258..3302/note="N-terminalproteinkinasedomain;C-terminalmyosinh

eavychainhead;substrateforPKA"/codon_start=1/product="myosinIII"/protein_id="AAC16332.2"/db_xref="GI:7144485"/translation="MEYKCISEHLP

FETLPDPGDRFEVQELVGTGTYATVYSAIDKQANKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGIEFLEEGTAADLLAT

HRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMFSKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWS

IGITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYRPCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQBASECOUNT1201

a689c782g1136tORIGIN1tcgacatctgtggtcgctttttttagtaataaaaaattgtattatgacgtcctatctgtt3781aagatacagtaactagggaaaaaaaaaa//GenB

ank记录(cont.)LOCUSAF0620693808bpmRNAINV02-MAR-2000序列和数据库标识位置,提取号,版本DEFINITIONLimuluspolyphemusmyosinIIImRNA,completecds.GBDivisionLocus名字简单描述(标题)修改日期

序列类型mRNA(=cDNA)rRNAsnRNADNA序列长度VERSIONAF062069.2GI:7144484ACCESSIONAF062069提取号Accession.versionginumber关键字,生物体来源KEYWORDS.

SOURCEAtlantichorseshoecrab.ORGANISMLimuluspolyphemusEukaryota;Metazoa;Arthropoda;Chelicerata;Merostomata;Xiphosura;Limulidae;Limulus.序列来源的物种名

序列来源的物种学名和分类学位置可更新的序列版本号REFERENCE1(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITL

EAmyosinIIIfromLimuluseyesisaclock-regulatedphosphoproteinJOURNALJ.Neurosci.(1998)InpressREFERENCE2(bases1

to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSub

missionJOURNALSubmitted(29-APR-1998)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREFERENCE3(

bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJ

OURNALSubmitted(02-MAR-2000)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL

32086,USAREMARKSequenceupdatebysubmitterCOMMENTOnMar2,2000thissequenceversionreplacedgi:3132700.引用以前版本号相关

文献编号,或递交序列的注册信息相关文献作者,或递交序列的作者相关文献题目引文出处相关文献刊物杂志名,或递交序列的作者单位相关文献注释评注FEATURESLocation/Qualifierssource1..3808/organism="Limulu

spolyphemus"/db_xref="taxon:6850"/tissue_type="lateraleye"CDS258..3302/note="N-terminalproteinkinasedomain;C-terminalmyosinheavychainhea

d;substratefo/codon_start=1/product="myosinIII"/protein_id="AAC16332.2"/db_xref="GI:7144485"/translation="MEYKCISEHLP

FETLPDPGDRFEVQELVGTGTYATNKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERE"特性表编码序列Biosource阅读框GenPeptProteinIdentifiersBASECOUNT1201

a689c782g1136tORIGIN1tcgacatctgtggtcgctttttttagtaataaaaaattgtattatgacgtcctatctgtt<sequenceomitted>3721accaatgttataatatgaaatgaaataaagca

gtcatggtagcagtggctgtttgaaata3781aagatacagtaactagggaaaaaaaaaa//Sequence记录结束标记指示序列数据的起始GenBank碱基数目PDB数据库文件格式分子类别--水解酶类(氧连接糖基化)该文件的公布日期该物质

的pdb代码该化合物名称人类唾液淀粉酶该化合物的来源结构测定者名字REMARK是此pdb文件的参考书目、最大分辨率、注解等REMARK的部分讲解下图中1处指出蛋白质原子数为3946,2处指出核酸原子数为0,3处指出异型原子数为2,4处指出溶

剂原子数为169指出蛋白质原子数核酸原子数异型原子数溶剂原子数SEQRES部分EQRES部分表示了该分子包含496个氨基酸残基,并将每个残基符号依次列出:HELIX部分下面的HELIX部分显示的是分子中α螺旋的组

成和信息,如下图:β折叠然后下面就是β折叠的组成和信息了,如下图:分子的原子信息下面就是该分子的原子信息了,我们先给出Format列的格式列表,然后进行一下详细的说明,如下图:列号目录fmt1-6ATOM或HETATMAll7-11原子序列号(可以有空格)All1

3-16按IUPAC标准格式的原子名称All17构象标识符,用A,B,C表示All18-20按IUPAC标准格式的残基名称All23-26残基序列号All27插入残基的编码(如:66A&66B)All31-38X坐标轴All39-46Y坐标轴All47-54Z坐标轴All55-60位置

All61-66温度因子All68-70脚注编号9273-76片段指示符(左对齐)9677-78元素符号(右对齐)9679-80原子带的电荷96分子的原子信息详解表示所指为原子该原子序列号IUPAC标准格式的原子名称残基名称残基序列号原子的X坐标轴Y坐标轴Z坐

标轴位置温度因子片段指示符TER、HETATM、CONECT、ENDTER记录,它记录主链分子中的链末端,在TER后面的HETATM就是记录异型原子的信息。在HETATM记录的后面还有一些CONECT记录。CONECT详细的描述了已给出坐标的原子间的连通性。而这

种连通性是以该记录的原子序列号的形式表现的。CONECT记录是用来描述那些非标准残基(包括水)和那些在标准连通性表中没有被详细列出的键。最后,在整个文件的结尾还有一个END记录表示文件的结束。KnowledgeDiscoveryi

nDatabasesDataWarehousePrepareddataDataCleaningIntegrationSelectionTransformationDataMiningPatternsEvaluationVisualization

KnowledgeKnowledgeBase生物信息学最重要的任务是从海量数据中提取新知识

小橙橙
小橙橙
文档分享,欢迎浏览!
  • 文档 6209
  • 被下载 8
  • 被收藏 0
相关资源
广告代码123
若发现您的权益受到侵害,请立即联系客服,我们会尽快为您处理。侵权客服QQ:395972555 (支持时间:9:00-21:00) 公众号
Powered by 太赞文库
×
确认删除?