【文档说明】BLAST数据库检索课件.ppt,共(90)页,1.169 MB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-92269.html
以下为本文档部分文字说明:
回顾——数据库搜索•互联网上存放大量免费的生物学数据库,并有基本的数据分析工具。•NCBI包含生物大分子序列的各种最基本数据库。•Entrez是NCBI的检索系统,提供关键词检索功能,可检索该网站所有的子数据库。•参考序列数据库(RefSeq)包括
核酸和蛋白质序列,是高质量的非冗余的数据库。•GenBank数据格式(GBFF)包含序列大量的相关信息。1/90回顾——双序列比对•双序列比对有三种情况:匹配(得分为正),不匹配(蛋白质有保守性问题),空位(罚分)。空
位罚分一般采用仿射罚分。•双序列比对可以帮助我们发现两条序列一致性位点的百分比,或者保守性位点(蛋白质)的百分比。•动态规划法比对两条序列可以获得数学上的最佳值(受打分矩阵影响)。•可以进行全局(长度接近)和局部的比对。•相似性是查找确认同源序
列的最基本步骤。同源序列一般具有统计显著的相似性。2/90课堂练习•应用动态规划法算法,打分系统是否对双序列比对结果有影响?为什么?•双序列比对的动态规划算法的时间复杂度?•用点阵法确认一条rna序列是否具有发夹状结构。•点阵法为什么要进行去噪处理,用什么方
法?3/90矩阵集合-----PAM-N如,PAM60矩阵用于比较相距60个PAM单位的序列。计算方法是PAM1自乘60次。思考题:经过100次PAM后,是否每个氨基酸都发生了变化?为什么?4/90BLOSUM62模块氨基酸替换矩阵5/90BLOSUM90PAM30低趋异度小
鼠和大鼠RBPBLOSUM45PAM240高趋异度小鼠和细菌的lipocalinBLOSUM80PAM120BLOSUM62PAM180相似度越低的序列,在比对的时候,采用PAM矩阵时,后面的数字越大,采用BLOSUM矩阵时,后面的数字越小。6/90序列相似性搜索BLAST
7主要内容•一、BLAST简介•二、BLAST算法•三、BLAST一般使用方法•四、BLAST搜索实例8/90一、BLAST简介与意义BLAST(BasicLocalAlignmentSearchTool)a
llowsrapidsequencecomparisonofaquerysequenceagainstadatabase.TheBLASTalgorithmisfast,accurate,andweb-accessible.9/90网站上的简单说明•TheBasicLocalAlignmen
tSearchTool(BLAST)findsregionsoflocalsimilaritybetweensequences.Theprogramcomparesnucleotideorproteinsequencestosequencedatabasesandcalculatesth
estatisticalsignificanceofmatches.BLASTcanbeusedtoinferfunctionalandevolutionaryrelationshipsbetweensequences
aswellashelpidentifymembersofgenefamilies.(作业:翻译)10/90BLAST的应用•确定直系同源序列或旁系同源序列。如当一个新的细菌基因组被测序后,几千种蛋白质被确定,其中有多少蛋白质是同源的?从这里面预测出的基因中有多少
是在GenBank中找不到显著性同源物的?•确定哪些蛋白质和基因在特定的物种中出现。植物中是否也存在象RBP这样的脂质运载蛋白?鱼类中是否有反转录酶基因(如HIV-1pol基因)?•确定一个DNA或者蛋白质序列身份。如通过芯片实验得到一个感兴趣的基因,那么就可以通过将这个DNA序列在一
个蛋白质数据库中进行搜索,来寻找哪些蛋白质与该DNA编码的蛋白质具有相关性。11/90•确定一个特定基因或者蛋白质有哪些已经发现的变种。例如,很多病毒都具有极强的突变能力。HIV-1pol有哪些已知的变异体?•研究可能存在多种剪接方式的表达序列标签。•寻找对于一个蛋白
质的功能和/或结构起关键作用的氢键氨基酸残基。•发现“新基因”。例如,一个对于全基因组DNA的BLAST搜索可能会发现一个DNA所编码的蛋白质是以前所没有报道过的。12/90数据库搜索相似序列的算法•数
据库搜索相似序列的基础是序列的相似性比对,就是将查询序列与数据库里面的序列逐一的两两比对分析。•由于现在数据库信息量很大,这样简单重复的分析非常耗时。所以开发了一些近似的算法以提高速度,目前使用最广泛的序列对数据库相似性搜索的应用程序是FASTA和BLA
ST。•BLAST算法跟之前讲的动态规划法算法有所不同,处理速度更快。13/90BLAST14/90二、BLAST算法“ThecentralideaoftheBLASTalgorithmistoconfineattentiontosegm
entpairsthatcontainawordpairoflengthwwithascoreofatleastT.”Altschuletal.(1990)15/90这个算法可以描述为3个步骤•第一步:编译一组阈值高于T的wordpairs
(w=3)。•例:对于人RBP查询序列„FSGTWYAMAKKDP„•得到一列words(w=3):•FSGSGTGTWTWYWYAYAMAMA„思考题:如果查询序列有100个字符,那么应该会得到多少个“
字”?16/90BLOSUM62模块氨基酸替换矩阵17/90GTW6,5,1122GSW6,1,1118ATW0,5,1116NTW0,5,1116GTY6,5,213GNM10DAW10(T=11)Fig.4.13page101第一步G
TW18/90第二步•扫描数据库,得到与编译列表匹配的记录,称为序列片段对(segmentpair)。它是两条给定序列中的一对子序列,它们的长度相等,且形成无空位的完全匹配。由于在序列片段对查找过程中不考虑空位字符,即不考虑插入和删除操作,所以运行速度非常快。KENFDKARFSGT
WYAMAKKDPEG50RBP(query)MKGLDIQKVAGTWYSLAMAASD.44lactoglobulin(hit)19/90“字”对命中后,向两端延伸,一直到得分(按照某个打分矩阵)下降到某个阈值,由此就得到一定
长度的保持最好得分的序列串,称高记分片段对(high-scoringpair,HSP)。KENFDKARFSGTWYAMAKKDPEG50RBP(query)MKGLDIQKVAGTWYSLAMAASD
.44lactoglobulin(hit)Hit!extendextend第三步20/90搜索量T值21/90•最初是不考虑空位插入,但在生物的进化过程中碱基的插入或缺失突变是普遍存在的,因此比对结果通常会出现一些无空位但不连续的区域,若将有些高分分值片段对通过一些相似性较低且有空位的片段连
接起来,就能组成一些更长的或许更有实际生物学意义的比对。•基于上述思路,改进的BLAST算法允许空位出现,在多个HSP中,找一个最好的得分最高的片段对(maximalsegmentpair,MSP),以此为基础运行动态规划法将这一片段向序列的两端延伸,最终产生一个记分较高的最佳比
对结果,且可能有空位插入。22/90BLAST算法小结•wordpairs——segmentpair——high-scoringpair,HSP——maximalsegmentpair,MSP——动态规划法。23/90随机事件与统计显著意义的事件•H
SP是否有生物学意义呢?序列相似性不一定就是有生物学意义的,随机也会产生一定的相似性序列。•一段序列的出现是不是随机事件?•简单的一个模型:假设一个数据库有100条数据,每个数据长度是4,随机给一条长度为4的序列(GGAC)在数据库中能找到的概率有多大呢?(大约32%,这个值叫P【p
robability】值)。【每个字符(ATGC)出现的概率同等:1/4】。24/90•BLAST中一般用一个E值(Expectationvalue)来表示比对的显著性。•E值【P值】表示如果数据库是随机序列,那么得
到同样(得分)或者更好比对结果的序列的频率【概率】。这个值越小越好,说明越有生物学意义。25/90E值与p值的关系26/90E值的问题•假设我们现在得到了一个比对结果,那么在这个结果的基础上,搜索的数据库越大,比对的E值应该是越小还是越大?(作业)•E值与哪些参数有关?27/90
三、BLAST一般使用方法•(1)得到并输入查询序列•(2)选择BLAST程序•(3)选择搜索的数据库•(4)选项选择•Thenclick“BLAST”28/90进入BLAST界面http://blas
t.ncbi.nlm.nih.gov/Blast.cgi29/90help30/90选择BLAST程序•程序输入数据库••blastnDNA1DNA••blastpprotein1protein••blastxDNA6protein••tblastnpr
otein6DNA••tblastxDNA36DNA31/90文献•http://scholar.google.com.hk/32/90•三、BLAST一般使用方法•(1)得到并输入查询序列•(2)选择BLAST程序•(3)选择搜索的数据库•(4)选项选择•Thenclick“BLA
ST”33/90输入序列可以输入序列的ACCN号,gi号或者FASTA格式的序列34/90输入说明点红圈的“more”可以更多的说明35/90输入格式说明•1)FASTA格式http://www.ncbi.nlm.nih.gov/BLAST/b
lastcgihelp.shtml“>”开始的单行加分行的序列字符串,中间不允许空行。>gi|129295|sp|P01013|OVAX_CHICKGENEXPROTEIN(OVALBUMIN-RELATED)QIKDLLVSSSTDLDTTLVLVNAIYFKGMW
KTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS36/9037/902)BareSequenceQIKDL
LVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMA
LGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHPFLFLIKHNPTNTIVYFGRYWSP没有开始的带“>”的单行,只有序列数据,中间不允许空行。
38/902)BareSequence也可以是GBFF格式中的序列数据,即可以带数字和空格,但序列中间也不允许空行。1qikdllvssstdldttlvlvnaiyfkgmwktafnaedtrempfhvtkqeskpvqmmcmnn61sfnvatlpa
ekmkilelpfasgdlsmlvllpdevsdleriektinfekltewtnpntmek121rrvkvylpqmkieekynltsvlmalgmtdlfipsanltgissaeslkisqavhgafme
ls181edgiemagstgviedikhspeseqfradhpflflikhnptntivyfgrywsp39/903)Identifiers•包括检索号,带版本号的检索号以及gi号都是允许的,但是格式有要求,下面是几种错误的格式。ACCESSIONP01013AAA68
881.1gi|129295ACCESSION不能出现版本号之前不能有空格“|”与数字之间不能有空格40/90限定检索范围例如“From”中填“20”,“To”中填“200”,那么就是只比对序列中第20个字符到第200个字符之间的子序列(181个字符),如果序列
长度小于200,则取到序列长度。41/90•三、BLAST一般使用方法•(1)得到并输入查询序列•(2)选择BLAST程序•(3)选择搜索的数据库•(4)选项选择•Thenclick“BLAST”42/90选择数据库(核酸比对)非冗余数据库43/90选择数据库(蛋白比对)44/90更
多的限制45/90选择程序46/90表3.1Blastn可以比对短的近似精确的序列比对47/90说明48/90http://www.ncbi.nlm.nih.gov/blast/producttable.shtml#tab3149/
90megablast•MEGABLASTisthetoolofchoicetoidentifyanucleotidesequence。•寻找和被比对序列高度相似的序列,其他的程序discontiguous-megablast和blastn
也能实现这个目标,但是MEGABLAST是专门针对高度相似序列而设计的,是最有效的查找和原序列相同序列的工具。50/90discontiguousmegablast•DiscontiguousMEGABLASTisbetteratfindingnucleotidesequen
cessimilar,butnotidentical,toyournucleotidequery。•Discontiguousmegablast则更适合发现和被查询序列相似而不是相同的序列。51/90蛋白搜索的
程序52/90•三、BLAST一般使用方法•(1)得到并输入查询序列•(2)选择BLAST程序•(3)选择搜索的数据库•(4)选项选择•Thenclick“BLAST”53/90选择算法参数(核酸比对)54/90选择算法参数(蛋白比对)55/90•
一般先从默认的开始,根据结果或者特殊的需要调整参数。56/90输出结果57/9058/90taxonomyreportsummarizesspecieswithmatches59/90结果60/90图示结果61/90列表结果62
/90比对结果得分有两个:274是原始分,也就是根据打分矩阵计算得到的分数,248是比特分,是归一化的分数,这样可以忽略打分矩阵和的影响。63/90目标序列信息64/90开始点:一个分子序列RBP(任
何物种的DNA或蛋白质)Blastp:有哪些其他蛋白与RBP相关Blastn:人类RBPDNA的3’非翻译区是否与RBP的直系同源物或者旁系同源物的3’非翻译区具有同源性?Blastx:一个脂质运载蛋白的EST与哪些已经蛋白的亲缘关系最近?t
blastx:人类RBPDNA是否与一个被预测由一个像细菌EST这样的DNA文库中的某个基因编码的蛋白质相匹配?tblastn:一个基因组DNA数据库中是否有一个RBP的直系同源物?搜索策略与问题实例可改变
的搜索参数将搜索限制在一个物种(如人类)或者一个类(如细菌);更改打分矩阵也很得到很远的同源关系;更改空位罚分来帮助找到同源物或者蛋白质中含有的在其他蛋白质中也出现的短的区域。目标:BLAST搜索可以获得的结果找到与RBP蛋白明确相关的其他蛋白质或者基因;找到与感兴趣的蛋白质有较远亲缘关系的
其他蛋白质;发现一个与输入基因同源的“新基因”;找到在感兴趣的蛋白质中含有的并在其他蛋白质中也出现的结构域;通过多序列比对或者种系统进化树来显示蛋白质家族的关系。BLAST搜索策略图65/90四、BLA
ST搜索实例•Lipocalin蛋白家族成员NP_006735作为查询序列进行BLAST,可获得部分Lipocalin家族蛋白。66/9067/90序列间距离68/90多序列比对69/90分类学总结70/90同源性与相似度两条相似度很差的序
列是同源序列71/9072/90关于两个蛋白(或DNA)是否同源•1)期望值是否显著?•2)两个蛋白是否具有相似的大小?•3)这两个蛋白质是否具有共同的模体或者信号序列?•4)这两个蛋白质是否一个合理的多序列比对的一部分?•5)这两个蛋白质是否共有一个相似的生物学功能
?就像所有的载脂蛋白一样,这两个蛋白都是小的、亲水性的、含丰富的分泌分子。•6)这两个蛋白质是否具有相似的三维结构?载脂蛋白共享一个显著的非常保守的结构。•7)如果得到一个远缘关系的序列,用该远缘关系的序列再做一次BLASTP搜索,一般可获得更多的该蛋白家族的成员。73/90用NP_002562
.2进行BLASTP可获得更多lipocalin家族蛋白质。74/90Lipocalin家族retinol-bindingproteinodorant-bindingproteinapolipoproteinD75/90•HIV-1的pol蛋白(NP_057849),这
是一个多结构域的蛋白,包含有多个不同的蛋白酶、反转录酶和整合酶结构域。76/90分析一个人类EST使用HIV-1pol蛋白对不同数据库进行查询Blastpnr(细菌蛋白质)找到很多HIVpol的变体找到几十个部分匹配找到
更多的细菌蛋白的匹配很多显著性匹配几百个显著性匹配Blastpnr(所有蛋白质)tBlastnnr(细菌基因组)Blastpnr(人类蛋白质)tBlastnnr(人类基因组)tBlastxnr(病毒基因组)其他病毒以HIV-1pol蛋白开始的BL
AST搜索总图,通常为研究一个特定基因、蛋白或者物种,可以进行一系列的BLAST搜索。搜索返回的数据库匹配结果的数量可以从一个到上千个,这完全取决于查询序列、数据库和搜索参数本身的特点。77/9078/90在非冗余数据库中搜索,可看到返回大量的匹配
结果,全部具有极低的期望值。79/90•该蛋白具有丰富的结构域。80/90HIV-1pol蛋白与人类蛋白的同源性搜索。81/9082/90与HIV-1pol同源的人类蛋白。很多匹配项跨越病毒pol的全长,83/9084/9085/90细菌bacte
ria要想对pol蛋白在整个生命树中的分布了解得更多,我们可能会问有哪些细菌蛋白和HIV-1pol蛋白相关。从这个图可发现相似的区域很集中,可以对照该蛋白的结构域进行比对。86/90•tblastn人类EST数据库图中可以看到很多人类基因都被活跃地转录来产生被预测制
造与HIV-1pol蛋白同源的蛋白质的mrna。人类中表达的转录基因是否编码与HIV-1pol蛋白同源的蛋白质?87/90课后练习•人RBP4蛋白NP_006735进行BLAST,选择不同的数据库,选择不同的打分矩阵,限定不同的物种,观察结果。•为什么没有提供BasicGlobalAlign
mentSearchTool(BGAST)来补充BLAST?BGAST会成为一种有用的工具吗?创立它可能遇到的计算上的困难是什么?•你认为1,0.05或者10-5是有意义的期望值吗?答案是否依赖于你所做检索的种类?88/90课后思考题•1、BLAST是什么英文名词的缩写,中
文含义是什么?BLAST的主要功能是什么?•2、NCBI的BLAST有多少种类型,分别需要进行多少次比对?•3,BALST检索的哪一种输出估计了假阳性数据?•A)E值;B)Bitscore;C)Percentidentity;D)Percentp
ositive•4,如果进行了一个BALST检索,E值是10-10,这个E值的意义是什么?E值的大小依赖于哪些参数?在什么样的场合需要选择一个很大的E值阈值?89/90•5,将期望值从1改成10,输出结果数目是增多还是减少?•6,将打分矩阵从
PAM30改成PAM70,返回的检索结果是增多还是减少?•*7,查询序列NP_000198信息,进行blastp,改变以下参数观察结果。90/90