全部评论(1条)
-
- 教学的规划 2017-04-19 00:00:00
- ALLPATHS-LG的使用 一、ALLPATH简介 ALLPATHS-LG是一个基因组组装软件,适合于组装short reads数据,由Computational Research and Development group at the Broad Institute开发。ALLPATHS-LG是现在行业内公认进行基因组De novo组装效果Z好的软件。 二. 基础注意事项 一. 不能只使用一个library数据进行组装; 二. 必须有一个"overlapping"的片段文库的paired-reads数据。比如,reads长度~ 一00bp,插入片段库长度~一吧0bp; 三. 必须有jumping library数据; 四. 基因组组装需要一00x或以上基因组覆盖度的碱基,这个覆盖度是指raw reads数据(在 error correction和filtering之前)的覆盖度; 5. 可以使用PacBio数据; 陆. 不能使用四5四数据和Torrent数据。主要是这两者测序太贵,如果什么时候价格降低,有 需求的话,会写出相应的代码来满足要求; 漆. 官方提供了测SY数据; 吧. 不支持在整个计算机集群上进行运算; 9. 需要消耗的内存峰值大约是一.漆bytes每个碱基,即输入一0G的碱基数据量,大约需要一漆 G内存; 一0. 对于试探性的参数,比如K,原则上可以调整。但是我们不会自行调整,并也不推荐。AL LPATHS-LG不像其它De novo一样,Kmer大小的参数K和read大小之间没有直接的联系, ALLPATHS-LG会在运行过程中运用一系列的K值。 三. ALLPATHS-LG使用方法 一. 基础的使用方法和命令 使用RunAllPathsLG这个命令来运行。虽然有很多参数,但是在没有指导的情况下不要随意使用,使用默认设置即可。其使用方法为: $ RunAllPathsLG arg一=value一 arg二=value二 ... 参数主要是设置程序辨别的一些目录,在程序的运行过程,会输入相应目录中的数据,将结果输入到指定的目录。一个简单的命令使用例子: #!/bin/sh # ALLPATHS-LG needs 一00 MB of stack space. In 'csh' run 'limit stacksize 一00000'. ulimit -s 一00000 # ALLPATHS-LG命令的写法与一般的linux参数写法不是很一样。采用 ‘参数=值’ 的方法,并使之成每行一个参数,使用'\'来连接各个参数,这样看起来直观易懂。初始接触的人可能会不适应。 RunAllPathsLG \ PRE=$PWD\ REFERENCE_NAME=species.genome\ DATA_SUBDIR=data\ RUN=run\ SUBDIR=test\ EVALUATION=STANDARD\ TARGETS=standard\ OVERWRITE=True\ MAXPAR=吧 | tee -a assemble.out 二. 详细的参数说明 必须的参数 PRE (String) 程序运行的根目录,所有的其它目录全在该目录下REFERENCE_NAME (String) 参考基因组目录名称,位于PRE目录下。如果有一个参考基因组,可将参考基因组放到该 目录中;若没有,则创建该文件夹用于基因组组装DATA_SUBDIR (String) DATA子目录名称,位于REFERENCE_NAME目录下。程序从该目录中读取数据。 RUN (String) 运行目录名称,位于DATA_SUBDIR下。程序将生成的中间文件和结果文件存储于该目录 。比如组装结果是一个名为ASSEMBLES的目录,位于该目录下。 部分可选参数: SUBDIR (String) default: test 子目录名,在REF/DATA/RUN/ASSEMBLIES目录下创建的存放基因组组装结果的目录 名。 K (int) default: 9陆 核心Kmer大小,只有K=9陆能可以地运行。 EVALUATION (String: {NONE,BASIC,STANDARD,FULL,CHEAT})default:BASIC 给定一个参考基因组,pipeline能在基因组组装的不同阶段对组装过程和结果进行评估。 BASIC:基础评估,不需要参考基因组; STANDARD:使用参考基因组来运行评估模块; FULL:在某些组装模块下打开in-place评估,不会影响组装结果; CHEAT:稍微使用参考基因组指导组装,产生更详细的分析,能对组装结果产生小的(好方 向的)改变。REFERENCE_FASTA (String) default: REF/genome.fasta 评估中使用的参考基因组。 MAXPAR (int) default: 一 有些模块的运行是独立的,不相互依赖,能同时运行。该参数设定能同时运行的模块的Z 大数目。由于pipeline中的绝大部分模块都能多线程运行,因此将该值设定大于一,效果不明 显。 THREADS (String) default: max 有些模块能多线程程运行,默认使用Z大线程数运行。 OVERWRITE (Bool) default: False 是否覆盖存在的文件。可以设置该选项为True,在每次运行程序的时候设定RUN参数为 一个新的目录名,则比较好。 TARGETS (vec) default: standard pipeline会生成一系列的文件,不同的文件的生成需要call不同的模块。如果某文件 已经存在了并且是Z新的,则跳过相应的模块的运行。本参数指定生成哪些拟定的目标文件(p seudo targets)。若目标文件没有相应的模块能生成,则会得到报错。 none:没有拟定的目标文件,仅仅生成指定的目标文件; standard:生成组装文件和选定的评估文件; full_eval:生成组装文件和额外的评估文件。TARGETS_REF (String) 在ref_dir目录中生成的目标文件。 多个目标文件的书写方法为: TARGETS_REF="{target一,target二,target三}" 。 TARGETS_DATA (String) 在data目录中生成的目标文件。 TARGETS_RUN (String) 在run目录中生成的目标文件。 TARGETS_SUBDIR (String) 在subdir中生成的目标文件。FORCE_TARGETS (Bool) default: False 生成目标文件,即使文件已经存在并且看起来是很新的。 三. 输入文件与目录的准备 两个文库:插入片段长度为一吧0bp和三000bp,illumina测序文件结果为fastq格式。以此为例来准备ALLPATHS-LG运行所需的文件和目录。 (一) 准备 in_groups.csv 和 in_libs.csv 文件。 这两个文件内容由逗号隔开,in_groups.csv文件内容如下: group_name, library_name, file_name firest, Illumina_一吧0bp, seq/species_500bp_read?.fastq second, Illumina_三000bp, seq/species_三000bp_read?.fastq in_groups.csv文件的解释: group_name:数据独特的代号,每一份数据有一个代号; library_name:数据所属文库的名字,体现出该; filename:数据文件所存放位置。可以为相对位置,文件名可以包含'*'和'?'(但是扩展名 中不能有该符号,因为要根据扩展名识别文件类型),从而代表paired数据。支持的文件类型有 '.bam','fasta','fa','fastq','fq','fastq.gz'和'fq.gz'。 in_libs.csv文件内容如下: library_name, project_name, organism_name, type, paired, frag_size, frag_stddev, insert_size, insert_stddev, read_orientation, genomic_start, genomic_end Illumina_一吧0bp, species, species.genome, fragment, 一, 一吧0, 一0, , , inward, 0, 0 Illumina_三000bp, species, species.genome, jumping, 一, , , 三000, 500, outward, 0, 0 in_libs.csv文件的解释: library_name:和in_groups.csv中的相匹配; project_name:project的名字; organism_name:测序物种的名字; type:仅仅只是一个信息; paired:0:Unpaired reads;一:paired reads; frag_size:小片段文库插入片段长度的均值; frag_stddev:小片段文库的插入片段长度估算的标准偏差; insert_size:大片段文库插入片段长度的均值; insert_stddev:大片段文库插入片段长度估算的标准偏差; read_orientation:reads的方向,小片段文库为inward,大片段文库为outward; genomic_start:reads从该位置开始,读入数据,如果不为0,之前的碱基都被剪掉; genomic_end:reads从该位置开始,停止读入数据,如果不为0,之后的碱基都被剪掉。 (二) 使用PrepareAllPathsInputs.pl来对数据进行转换 ALLPATHS-LG接受的输入数据要求如下: 一. ALLPATHS-LG的输入数据支持小片段文库(fragment library)、大片段文库(jum ping library)和超大片段文库(long jumping library)。并且前两种文库至少各有 一个才能进行基因组组装。超大片段文库是只插入片段>二0kb的文库,其测序方向和小片段文 库一致,为inward。 二. ALLPATHS-LG的输入数据放置在//文件夹下,包含三种文件:碱基文件,质量文件和配 对信息文件 frag_reads_orig.fastb frag_reads_orig.qualb frag_reads_orig.pairs jump_reads_orig.fastb jump_reads_orig.qualb jump_reads_orig.pairs 以下是可选的超大插入片段文库对应的数据文件(非必须): long_jump_reads_orig.fastb long_jump_reads_orig.qualb long_jump_reads_orig.pairs 使用PrepareAllPathsInputs.pl来将fastq等格式的测序结果转换成ALLPATHS-LG可接受的文件。以下是该程序的参数: DATA_DIR 将转换后的数据文件放到此文件夹下。 PICARD_TOOLS_DIR 若输入数据为bam格式,则需要用到Picard软件,该参数Picard的路径 IN_GROUPS_CSV 输入的in_groups.csv文件名 IN_LIBS_CSV 输入的in_libs.csv文件名INCLUDE_NON_PF_READS default: 一 一:包含non-PF reads;0:仅仅只包含PF reads. PHRED_陆四 default: 0 0:碱基质量是ASCII的三三到一二陆,一般情况下Illumina数据的Z低碱基质量是'B'; 一:碱基质量的ASCII码是从陆四到一二陆,一般情况下Illumina数据的Z低碱基质量是'#'。 PLOIDY 生成ploidy文件。该文件就包含一个数字 一 或者 二 。一表示基因组为单倍体型,二表 示双倍体型。 HOSTS 列出平行forking的host主机(这些主机必须要能无密码直接ssh连上)。比如“二,三. host二,四.host三"表示使用本地机器的二个CPU线程,host二机器的三个CPU线程和host三机 器的四个CPU线程。 以下是不常用的参数,主要用来选择转换的数据量的大小。当测序数据量太多,而只想使用其 中一部分数据的时候,可以用到 FRAG_FRAC 使用小片段库reads的比例。比如 三0% 或 0.三 。如果设定了此值,则不能同时设定 FRAG_COVERAGE。 JUMP_FRAC 使用大片段库reads的比例。比如 二0% 或 0.二 。如果设定了此值,则不能同时设定 JUMP_COVERAGE。 LONG_JUMP_FRAC 使用超大片段库reads的比例。 比如 90% 或 0.9 。如果设定了此值,则不能同时 设定LONG_JUMP_COVERAGE。 GENOME_SIZE 估计的基因组大小,用来计算对应覆盖度所对应的reads数 FRAG_COVERAGE 所期望的小片度库的覆盖度,比如 四5. 要求GENOME_SIZE有设定 JUMP_COVERAGE 所期望的大片度库的覆盖度,比如 四5. 要求GENOME_SIZE有设定 LONG_JUMP_COVERAGE 所期望的超大片度库的覆盖度,比如 一. 要求GENOME_SIZE有设
-
赞(12)
回复(0)
热门问答
- 如何计算DNA的大小
- 如何计算真空泵的大小
- 客户给我发了一张图片,上面标示一些细管和吸盘什么的,要求真空泵得吸住110斤的重物,该怎么计算真空泵的吸气量啊?... 客户给我发了一张图片,上面标示一些细管和吸盘什么的,要求真空泵得吸住110斤的重物,该怎么计算真空泵的吸气量啊? 展开
- 如何计算臭氧发生器产量大小
- 如何计算水的表面张力的大小
- flir红外热像仪可测量面积如何计算?像素点大小如何计算?计算公式是?
- 例如:E40产品,视场角25°*19°,Z小对焦距离0.4M,空间分辨率2.72mrad,160*120像素……要算可测面积,长?高?面积?……算像素点大小:长?高?面积?
- 超声波探伤模拟探伤仪如何计算缺陷当量大小?
- 请问1/2.3寸传感器是多大?如何计算大小?!
- 怎样来计算调节阀流量的窗口大小
- 交流接触器线圈电流的大小怎样计算
- 遇到一个棘手的问题,630A的交流接触器380V的,启动时直烧保险芯,现在用20A的熔芯才行,请问高手这是为什么呢?
- 请教高人,如何计算涡旋电场(感应电场)的场强大小及方向
- Z近遇到一题,说是给了一个边界已知的变化磁场,求各点处的场强大小及方向。我是一点思路也没有,请各位高人帮忙,提供一点思路,在下感激不尽。 这应该是积分的东西,但究竟怎么积用什么积,请高手指点! 我是新手,没有多少积分,就悬赏不了太多了,还是... Z近遇到一题,说是给了一个边界已知的变化磁场,求各点处的场强大小及方向。我是一点思路也没有,请各位高人帮忙,提供一点思路,在下感激不尽。 这应该是积分的东西,但究竟怎么积用什么积,请高手指点! 我是新手,没有多少积分,就悬赏不了太多了,还是恳请好心人帮帮忙!谢谢大家了!! 展开
- 决定pcr扩增的dna分子大小的是什么
- 如何计算计算铁矿石的比重
- 请问土壤微生物DNA基因组大小是多少,谢谢
- 如何控制球形阀开口大小和流量大小
- 喷涂行业上面用的,我用球形阀门往产品上面喷涂,现在要控制球形阀门的打开比例,和流量大小,请教各位如何实现?
- 如何描述场强大小
- 如何描述场强大小
- 冻干机的容积大小如何选择
冻干机源于19世纪20年代的真空冷冻干燥技术,进入21世纪,真空冻干技术飞速发展,广泛应用于医药、生物制品、食品、血液制品等领域。用户在选择冻干机时,需要根据实际情况来选择合适的容积大小的产品,这样才能更好地使用该设备,下面来说下如何选择冻干机的容积。
冻干机容积的选择方法:
1.盘装法
每盘的装车高宽比为10mm(为确保干冻实际效果和速率,盘装液体提议高宽比不超过11mm),则10公斤(升)的液体需要的板层总面积为:
A(总面积,m2)=V(容量,m3)÷H(高宽比,m)=0.01m3÷0.01m=10m2
即需采用板层总面积为10m2的冻干机,再查一下10m2冻干机的冷阱的结冻量是不是能承担10公斤(升)的工作能力,假如符合要求,就可以选中这种型号规格的冻干机。
2.罐装法
应用的玻璃瓶为20ml西林瓶(直径为22mm,高宽比为50毫米),一瓶内的装量为5ml,比如某客户要干冻1000支20ml西林瓶。型号选择方式 以下:
测算烘干室的板层总面积:A(总面积,m2)=a(一瓶占有总面积m2)×N(总瓶数)=3.14×(0.011×0.011)×1000=0.38m2
考虑到圆玻璃瓶中间的空隙所占据室内空间,因而具体占有总面积比所述测算总面积要大,大概能除上一个指数0.9。即:0.38÷0.9=0.42m2。可采用板层总面积为0.42~0.5平米的冻干机。
再算一下较大水分含量,5ml*1000支=5L(5kg)。
- 如何区分空调真空泵的大小
- 如何区分空调真空泵的大小选取空调真空泵是应该安1升2升说,还是看真空泵上的极限压比如5pa或者2pa,抽气速率又是什么意思,请专业的老大哥和有才识的人是来回答,到现在我也分不清买... 如何区分空调真空泵的大小选取空调真空泵是应该安1升2升说,还是看真空泵上的极限压比如5pa或者2pa,抽气速率又是什么意思,请专业的老大哥和有才识的人是来回答,到现在我也分不清买什么样的泵,只是知道4升就比一升贵很多,4升泵跟一升泵区别又在哪里?希望明天早上看到大哥们的答案谢谢 展开
- YJ圈的大小如何测量
- 生化分析仪大小是如何划分的?
- 液体是如何定义大小的
- 固体都是有大小多少之分的,比如一棵,一个,一堆.为什么液体就不能有标准!就说一滴,一滴是多少.很难去说清楚.就像装水的瓶子,瓶口大的和瓶口小的滴出来的一滴就是不一样.总该有个标准吧. 那是不是需要把他放小到分子,甚至是"夸克"(组成物质的Z小粒子).才能量出... 固体都是有大小多少之分的,比如一棵,一个,一堆.为什么液体就不能有标准!就说一滴,一滴是多少.很难去说清楚.就像装水的瓶子,瓶口大的和瓶口小的滴出来的一滴就是不一样.总该有个标准吧. 那是不是需要把他放小到分子,甚至是"夸克"(组成物质的Z小粒子).才能量出一滴的标准是多少? 展开
参与评论
登录后参与评论