全部评论(1条)
-
- 巨蟹king87 2016-12-23 00:00:00
- 什么时候需要利用生物信息学获取核酸序列信息 1.序列比对 序列比对其意义是从核酸、氨基酸的层次来比较两个或两个以上符号序列的相似性或不相似性,进而推测其结构功能及进化上的联系。研究序列相似性的目的是通过相似的序列得到相似的结构或功能,也可以通过序列的相似性判别序列之间的同源性,推测序列之间的进化关系。序列比对是生物信息学的基础,非常重要。 序列比对中Z基础的是双序列比对,双序列比较又分为全局序列比较和局部序列比较,这两种比较均可用动态程序设计方法有效解决。在实际应用中,某些在生物学上有重要意义的相似性不是仅仅分析单条序列,只能通过将多个序列对比排列起来才能识别。比如当面对许多不同生物但蛋白质功能相似时,我们可能想知道序列的哪些部分是相似的,哪些部分是不同的,进而分析蛋白质的结构和功能。为获得这些信息,我们需要对这些序列进行多序列比对。多重序列比对算法有动态规划算法、星形比对算法、树形比对算法、遗传算法、模拟退火算法、隐马尔可夫模型等,这些算法都可以通过计算机得以解决。 2.数据库搜索 随着人类基因组计划的实施,实验数据急剧增加,数据的标准化和检验成为信息处理的diyi步工作,并在此基础上建立数据库,存储和管理基因组信息。这就需要借助计算机存储大量的生物学实验数据,通过对这些数据按一定功能分类整理,形成了数以百计的生物信息数据库,并要求有GX的程序对这些数据库进行查询,以此来满足生物学工作者的需要。数据库包括一级数据库和二级数据库,一级数据库直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是对基本数据进行分析、提炼加工后提取的有用信息。 分子生物学的三大核心数据库是GenBank核酸序列数据库,SWISS-PROT蛋白质序列数据库和PDB生物大分子结构数据库,这三大数据库为全世界分子生物学和医学研究人员了解生物分子信息的组织和结构,破译基因组信息提供了必要的支撑。但是用传统的手工分析方法来处理数据显然已经无法跟上新时代的步伐,对于大量的实验结果必须利用计算机进行自动分析,以此来寻找数据之间存在的密切关系,并且用来解决实际中的问题。 3.基因组序列分析 基因组学研究的首要目标是获得人的整套遗传密码,要得到人的全部遗传密码就要把人的基因组打碎,测完每个小的序列后再把它们重新拼接起来。所以目前生物信息学的大量工作是针对基因组DNA序列的,建立快速而又准确的DNA序列分析方法对研究基因的结构和功能有非常重要的意义。对于基因组序列,人们比较关心的是从序列中找到基因及其表达调控信息,比如对于未知基因,我们就可以通过把它与已知的基因序列进行比较,从而了解该基因相关的生理功能或者提供疾病发病机理的信息,从而为研发新药或对疾病的ZL提供一定的依据,使我们更全面地了解基因的结构,认识基因的功能。因此,如何让计算机有效地管理和运行海量的数据也是一个重要问题。 4.蛋白质结构预测 蛋白质是组成生物体的基本物质,几乎一切生命活动都要通过蛋白质的结构与功能体现出来,因此分析处理蛋白质数据也是相当重要的,蛋白质的生物功能由蛋白质的结构所决定,因此根据蛋白质序列预测蛋白质结构是很重要的问题,这就需要分析大量的数据,从中找出蛋白质序列和结构之间存在的关系与规律。 蛋白质结构预测分为二级结构预测和空间结构预测,在二级结构预测方面主要有以下几种不同的方法:①基于统计信息;②基于物理化学性质;③基于序列模式;④基于多层神经网络;⑤基于图论;⑥基于多元统计;⑦基于机器学习的专家规则;⑧Z邻近算法。目前大多数二级结构预测的算法都是由序列比对算法BLAST、FASTA、CLUSTALW产生的经过比对的序列进行二级结构预测。虽然二级结构的预测方法其准确率已经可以达到80%以上,但二级结构预测的准确性还有待提高。 在实际进行蛋白质二级结构预测时,往往会把结构实验结果、序列比对结果、蛋白质结构预测结果,还有各种预测方法结合起来,比较常用的是同时使用多个软件进行预测,把各个软件预测结果分析后得出比较接近实际的蛋白质二级结构。将序列比对与二级结构预测相结合也是一种常见的综合分析方法。 蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有α-螺旋、β-折叠、β-转角等几种形式,它们是构成蛋白质高级结构的基本要素,常见的二级结构有α-螺旋和β-折叠。三级结构是在二级结构的基础上进一步盘绕,折叠形成的。研究蛋白质空间结构的目标是为了了解蛋白质与三维结构的关系,预测蛋白质的二级结构预测只是预测蛋白质三维形状的diyi步,蛋白质折叠问题是非常复杂的,这就导致了蛋白质的空间结构预测的复杂性。蛋白质三维结构预测方法有:同源模型化方法、线索化方法和从头预测的方法但是无论用哪一种方法,结果都是预测,采用不同的算法,可能产生不同的结果,因此还需要研究新的理论计算方法来预测蛋白质的三维结构。 图4.1 蛋白质结构 目前,已知蛋白质序列数据库中的数据量远远超过结构数据库中的数据量,并且这种差距会随着DNA序列分析技术和基因识别方法的进步越来越大,人们希望产生蛋白质结构的进度能够跟上产生蛋白质序列的速度,这就需要对蛋白质结构预测发展新的理论分析方法,目前还没有一个算法能够很好地预测出一个蛋白的三维结构形状,蛋白质的结构预测被认为是当代计算机科学要解决的Z重要的问题之一,因此蛋白质结构预测的算法在分子生物学中显得尤为重要。 5.结束语 现如今计算机的发展已渗透到各个领域,生物学中的大量实验数据的处理和理论分析也需要有相应的计算机程序来完成,因此随着现代科技的发展,生物技术与计算机信息技术的融合已成为大势所趋。生物学研究过程中产生的海量数据需要强有力的数据处理分析工具,这样计算机科学技术就成为了生物科学家的必然选择,虽然人们已经利用计算机技术解决了很多生物学上的难题,但是如何利用计算机更好地处理生物学中的数据仍是一个长期而又复杂的课题。
-
赞(10)
回复(0)
热门问答
- 什么时候需要利用生物信息学获取核酸序列信息
- 如何获取核苷酸序列
- 1说知道了某人的基因组文库 是指知道了23条染色体所有核苷酸序列 还是知道了所有片段基因的功能 2 用PCR技术获取目的基因需要知道一段核苷酸序列以便合成引物,那么如何获取核苷酸序列 一小段也行……
- 如何利用生物信息学分析测序结果
- sanger加减法核酸序列分析的原理
- 为甚么只有加法系统不行?Z好举例说明,谢谢!!!
- 怎样获取一个植物的未知DNA序列?
- 怎样获取一个植物的未知DNA序列?知道的朋友来交流一下。用真核生物的antipoter可以吗?... 怎样获取一个植物的未知DNA序列? 知道的朋友来交流一下。用真核生物的antipoter可以吗? 展开
- 基于核酸序列和氨基酸序列的进化分析有何差异
- 桥梁振动分析中从频谱图获取哪些信息
- 我知道通常是从频谱图中获得峰值对应的频率作为固有频率,频谱图中还能提取出其他信息吗
- 请举例说明雷达获取目标信息的原理,谢谢!
- 请举例说明雷达获取目标信息的原理,谢谢! ZD在于“举例”!举出一个具体的雷达型号,至于如何获取目标信息无所谓当然有是Z好啦! 可以用雷达说明,也可以用JY测速雷达说明。 不过Z好是不列颠空战中英军使用的雷达,因为是它们使人们意识到了雷... 请举例说明雷达获取目标信息的原理,谢谢! ZD在于“举例”!举出一个具体的雷达型号,至于如何获取目标信息无所谓当然有是Z好啦! 可以用雷达说明,也可以用JY测速雷达说明。 不过Z好是不列颠空战中英军使用的雷达,因为是它们使人们意识到了雷达对于战争的重要意义。 非常感谢!!! 展开
- 利用NimbleGen序列捕获技术实现定向RNA-Seq
Z近在Nature Protocols杂志上在线发表的一篇文章1介绍了利用NimbleGen序列捕获技术进行转录组定向测序,用于RNA研究中基因发现和表达定量。
RNAseq技术在基因表达研究中得到了广泛的应用,可对表达基因进行无偏见的采样。相比定量PCR可以对更广泛的基因同步分析,相比芯片方法RNAseq测序结果准确性也更高。然而,真核细胞的表达谱具有转录本数量众多、可变剪切情况复杂,且表达量高低差异大的特点。RNAseq测序结果分散在整个基因组中,不同基因测序深度差异显著,对转录水平偏低的转录本往往测序深度不足,为进行特定基因的可变剪切体拼接及定量研究造成阻碍。
而序列捕获技术通过寡合苷酸探针杂交,富集研究所感兴趣的基因或基因组区段,实现了定向测序。将此技术与RNAseq结合,即对RNAseq的测序文库先进行序列捕获实验富集感兴趣的转录本,再进行测序,实现定向RNAseq或RNA捕获测序(CaptureSeq)。这一方法可以提高目标转录本的测序深度,进行灵敏的基因发现、有效的转录本组装和准确的基因表达定量。
文中介绍的实验步骤主要包括探针设计、捕获测序和数据分析如转录本拼接及定量。实验选用了罗氏NimbleGen探针用于目标捕获。NimbleGen可同时生产2万种探针,可覆盖多达200Mb的基因组中的分散区域或连续的区域,可以应对复杂的真核生物转录组。文章指出,在探针设计时,仅针对目标转录本的部分序列设计探针,通过这些探针即可捕获全长转录本,也可发现转录本中的新外显子。当需对特定剪切方式的转录本进行定向研究时,可在探针设计包括连接两个外显子片段的探针,专门捕获这些异构体。
此外,实验设计了用于质控的探针。质控探针包括:1. 非转录的基因间区的探针,以排除gDNA污染;2. 其他可能造成实验室污染如大肠杆菌等的序列捕获探针,以排除实验室污染;3. 数个质控基因的探针,可用于进行测序前qPCR富集分析,或用于数据分析参数的测试;4. 针对掺入样本的ERCC RNA设计的探针。 ERCC RNA Spike-in standards由92个in vitro转录的转录本组成,表达量跨越一个106的范围,这一些标准品被掺入到Z初的RNA样品中进行捕获测序,用于判断测序量是否充足,以及计算捕获off-target rate。另外,将各转录本获得的测序深度,与ERCC RNA Spike-in standards的测序深度比较,可以推算出样本中各转录本的数量。文章作者指出,这个方法应用于转录水平较低的基因的富集,富集率与基因数量相关,如1000个随机选择的基因预期55倍富集效率。
5微克的总RNA约可生成250ng cDNA文库,可将多个样本的文库混合后根据Roche NimbleGen的实验手册进行捕获实验。混合捕获的实验方案可以对大量样本进行低成本的测序。测序后的分析步骤包括比对、拼接、去除非目标序列、新基因(外显子)发现、定量等。
通过这一实验,可以对样本中特定基因的表达进行研究。该方法既RNASeq相比其他表达谱研究方法的优势,又可以进行有目的性的、多样本的研究。尤其在对于表达水平中低等的转录本研究中,可以更好地拼接全长转录本、发现新基因以及定量分析。
1. Tim R Mercer, Michael B Clark, Joanna Crawford, Marion E Brunck, Daniel J Gerhardt, Ryan J Taft, Lars K Nielsen, Marcel E Dinger, John S Mattick. Targeted sequencing for gene discovery and quantification using RNA CaptureSeq. Nature Protocols. 9, 9891009 (2014) doi:10.1038/nprot.2014.058
仅用于科研,不用于诊断
- 生物信息学的应用
- 我用电信宽带测速,获取用户信息失败是什么原因?
- 核酸和蛋白质序列分析的内容和方法有哪些
- 如何利用ExPASy网站上的生物信息学软件分析蛋白质的基本性质?
- 如何利用ExPASy网站上的生物信息学软件分析蛋白质的基本性质? 或者还有什么好用的软件能做蛋白质方面的分析,包括理化性质,活性位点预测,结构预测等等?
- 如何从转录组测序结果中获取一个基因的序列
- 举例说明测量信息获取的基本过程,包含了哪些环节?
- 说明利用核酸探针技术鉴定病原微生物的原理、过程
- 在什么时候需要氧气气体检测仪?
- 夹具零件什么时候需要热处理
- 朋友,有几个问题。 ①夹具零件什么时候需要热处理 ②夹具零件常用的材料有哪些 ③夹具零件常用材料的热处理方法 ④以及在工程图上热量处理的标注方式。
- 行车什么时候需要安装编码器
参与评论
登录后参与评论