新闻中心

当前位置:首页 > 新闻中心 > 最新关注

最新关注

“超级食物”的藜麦如何登上Nature

发布日期:2017-2-17

      藜麦是一种营养丰富、无麸质、血糖指数低的作物,所含人体必需的氨基酸、纤维、脂肪、碳水化合物、维生素能和矿物质达到出色的平衡,是唯一一种单体植物,可基本满足人体基本营养需求的食物。最重要的是,它能够在各种环境条件下生长。 这种植物其实已经有5000年至7000多年的食用和种植历史,在上世纪80年代,藜麦就被美国国家航空航天局用作宇航员太空食物。但迄今为止,藜麦仍属于一种利用不足的作物,为了扩大其在全球范围内的生产,还需要通过育种工作改善其农业性状。 2017年2月8日,国际学术权威刊物自然出版集团《Nature》杂志在线发表了沙特阿拉伯阿卜杜拉国王科技大学Mark Tester研究员的一篇研究论文,研究报道了首个藜麦高质量参照基因组。研究将促进藜麦的遗传改良和育种策略,有望提高全球粮食安全。

已发表藜麦基因组

      藜麦基因组为异源四倍体(2n = 4x = 36),预估基因组大小为1.45-1.5Gb,基因组特征复杂。在2016年发表在DNA Research的藜麦基因组文章中[1],研究者对藜麦基因组进行Illumina和PacBio RS II测序组装,测序深度分别为196×和31×。Illumina数据经组装得到Contig N50 为14,505 bp,Scaffold N50为53,276 bp,随后利用PacBio长读长对组装结果进行gap close及进一步Scaffolding,最终得到藜麦基因组Cqu_r1.0大小为1.1Gb,包含超过24,000个Scaffolds,Scaffold N50为86,941 bp,并且有约25%的数据无法覆盖。

研究策略与比较结果

      本文作者报道了他们采用PacBio三代测序、Bionano光学图谱、Hi-C技术结合遗传图谱组装的高质量染色体级别的藜麦参考基因组序列并发表在最新的Nature杂志上。        

       事实上,在2016年,也有日本的研究团队对藜麦基因组进行过测序,采用的是短读长的二代测序技术结合低深度的PacBio测序数据,因此最后只得到了草图(draft),并非完整的参考基因组,文章仅发在了DNA Research(IF:5.267)杂志上。时隔半年,为何此次对藜麦的测序可以发到Nature(IF:38.138)的article?下面我们来具体了解一下两篇文章有何区别? 藜麦的基因组(Chenopodium quinoa, 2n=4x=36)预计在1.45-1.50Gb左右,本文中采用PacBio三代测序+Bionano光学图谱+Hi-C的经典策略,总共组装得到了1.39Gb的基因组序列,总共包含3,486个scaffold,Scaffold N50大小为3.84Mb,90%的基因组包含于439个scaffold中。而之前发表于DNA Research,基于短读长得到的草图获得了24,000多个scaffold,丢失了25%以上的序列。   

 

     从比较数据不难看出,对于藜麦这样的复杂异源四倍体基因组,64%的序列是重复序列,包含大量的长末端重复(LTR)转座因子。基于PacBio+Bionano+Hi-C的组装策略远优于短读长测序技术为主的组装策略,无论在基因组覆盖度,还是Contig N50和Scaffold N50等组装参数上都有大幅提升。在已有二代测序已发表基因组草图的情况下,仍然能够发表于Nature杂志上。

    进化源与亚基因组分析

    藜麦是异源四倍体,由A(北美)和B(欧亚)两个二倍体物种在北美某处杂交之后发生了基因组加倍而形成,四倍化事件大约发生在3.3-6.3百万年前。

将组装出的藜麦基因组Scaffold与两个亲本的测序序列进行mapping,通过BLASTN比对上的序列,有156410个来自于藜麦的Scaffolds(分别为202.6Mb646.3Mb),分别比对到AB两个亚基因组(Fig.1a)。

5,807个部分同源基因对在AB两个亚基因组染色体上的位置、共线性以及发生的染色体重排现象等(Fig.1b

 

Fig.1 藜麦亚基因组情况,蓝色CqA来自于A亚基因组,绿色CqB来自于B亚基因组

Fig.1c 以鉴定出的一段部分同源染色体区域为例(分别位于B亚基因组中的CqB05CqB03染色体),CqB03上的这一段区域(~7072 Mb)从系统发生学上来说却与A亚基因组更为接近,很可能是由A亚基因组的CqA12起源而来。

Fig.1d 比较了藜麦AB两个亚基因组与同科二倍体植物甜菜(Beta vulgaris)基因组之间的染色体同线性关系,结果显示CqA02CqA04分别与甜菜82号染色体是直系同源;而 CqB01是染色体融合的产物,CqA07起源于与甜菜37号染色体同源的祖先染色体的融合。

转录组分析

 

 

图中上部显示的是PacBio Iso-Seq转录组测序结果,中间部分显示的是Illumina RNA-Seq测序结果。上两部分的灰色线条表示内含子区域。底部显示的是AUR62017258基因所在的染色体位置。明显可以看出,PacBio的长读长技术无需拼接用于全长转录本测序,可以在一个reads中完全覆盖从5′非翻译区,所有外显子和3′非翻译区。而短读长技术则需要进行组装。

天津生物芯片基于PacBio SMRT测序技术,通过大量复杂基因组组装的实战经验,及PacBio组装流程优化和超算平台的搭建,致力于解决大基因组组装难题、基因组重复序列高、多倍体、杂合度高等组装难题,提供高质量的参,助您paper登顶级杂志。

53客服