这期内容当中小编将会给大家带来有关宏基因组binning的原理是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
创新互联是由多位在大型网络公司、广告设计公司的优秀设计人员和策划人员组成的一个具有丰富经验的团队,其中包括网站策划、网页美工、网站程序员、网页设计师、平面广告设计师、网络营销人员及形象策划。承接:网站建设、网站制作、网站改版、网页设计制作、网站建设与维护、网络推广、数据库开发,以高性价比制作企业网站、行业门户平台等全方位的服务。
在宏基因组中分离单基因组,可利用序列特征或序列组装信息,常见的可用信息主要有以下几种:
a.根据核酸使用频率(通常是四核苷酸频率)、GC含量和必需的单拷贝基因等基因组特征;
b.根据contig序列的覆盖度coverage信息;
c.根据测序数据的kmer丰度信息;
d.根据序列在不同样品的共出现规律(co-abundance patternsacross multiple samples);
e.将序列map到数据库的参考序列所获得的注释信息,也即物种binning。
根据所使用的序列数据不同,binning策略可分为三种:基于组装前的clean reads,基于组装后的contigs,基于注释的基因genes。
⑴基于reads binning
环境样本中微生物的丰度不同,其基因组kmer的期望深度也不同,根据kmer丰度可以直接对reads进行聚类,将属于不同基因组的reads分离开来。其优势是可以聚类出宏基因组中丰度非常低的物种,而且可以分离系统发育关系很近的物种。考虑到在宏基因组组装中reads利用率很低,单样品5Gb测序量情况下,环境样品组装reads利用率一般只有10%左右,肠道样品或极端环境样品组装reads利用率一般能达到30%,这样很多物种,尤其是低丰度的物种的reads没有被没有被组装出来,没有体现在contig中而被浪费,因此基于reads binning才有可能得到低丰度的物种基因组的的测序数据,在实际研究中基于reads binning的LSA(Latent Strain Analysis)方法可以聚类出丰度低到0.00001%的物种,并且对同一物种中的不同菌株的敏感性很强[2]。
⑵基于genes binning
在宏基因组做完序列组装和基因预测之后,把所有样品中预测到的基因混合在一起,去冗余得到unique genes集合,根据gene在各个样品中的丰度变化模式,计算gene之间的相关性,利用这种相关性进行聚类。利用这种策略进行binning得到的bins可称为CAG(co-abundance genegroups),包含有700个以上的gene的CAG称为MGS(metagenomic species),CAG可用进行关联分析,MGS可用进行后续的单菌组装[3]。当然根据具体的聚类算法和相关性系数的不同,对genes binning得到的bins的叫法也不同,除以上外还有MLG(metagenomic linkage groups)、MGC(metagenomic clusters)和MetaOTUs(metagenomic operational taxonomicunits)等,同时,MLG, MGC, MGS和MetaOTUs物种注释的标准也是不一样的。
目前已发表的宏基因组关联分析(MWAS)和多组学联合分析文章中,宏基因组binning很多都用genes binning方法,尤其是疾病的MWAS研究中基本都用genes binning[4]。这种方法的优势是基于genes丰度变化模式进行binning可操作性比较强,过程比较简单,可复制性强,对计算机资源消耗比较低。
⑶基于contigs binning
在宏基因组做完序列组装之后,将所有reads序列map到contigs上获得contig覆盖率,再综合GC含量、核算组成等信息对contig进行聚类,将属于不同基因组的contig序列分开。contig binning目前应用十分广泛,最常用的就是用于组装单物种基因组,目前已经有多种基于contig binning的软件[1],对于丰度较高的物种contigs binning效果较好,但是目前也有些缺陷或者说还有很多可提升的空间,例如对核酸组成信息的利用,开发得就不够充分,四碱基使用频率因简单而被广泛使用和接受,但现在已有研究表明k-mer丰度信息也是很好的种系特征,同时越长的k-mer含有越多的信息,还有基因和参考基因组间的同源关系也是有价值的种系信号,但这些都还没有被自动化的binning软件整合。
上述就是小编为大家分享的宏基因组binning的原理是什么了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注创新互联行业资讯频道。