中国科学家构建水稻图形基因组,打开水稻基因结构变异研究大门

最近,有研究成果解决了传统基因组学研究的缺陷,通过对 31 个具有遗传多样性的水稻高质量基因组进行组装,首次构建了“水稻图形基因组”,为水稻功能基因组研究奠定了良好基础,其结构变异和基因拷贝数变异对水稻等作物的进化、驯化和改良具有深远的意义。

四川农业大学水稻研究教授李仕贵与钦鹏之所以要揭示水稻“隐藏”的基因组变异密码,是由于现有的水稻基因组和基因组变异存在诸多局限,导致无法高效地推进现有他们日常科研工作,尤其是从水稻种质中挖掘优良基因资源方面的研究工作。

图|李仕贵(来源:李仕贵)

李仕贵/钦鹏课题组与中科院梁承志课题组先前的合作,了解到梁承志课题组可以构建高质量基因组。

因此,他们决定再次合作,通过构建高质量基因组,寻找、分析水稻资源中的优良等位基因,加速推进现有科研进展。

该研究突破了传统线性基因组仅可以存储单个个体遗传信息的限制,阐明了基因结构性变异和拷贝数变异在调控水稻农艺性状的重要作用,为选育高产优质、绿色安全水稻新品种提供基础支撑[1]。

5 月 28 日,相关论文以《基于 33 个水稻遗传多样性材料的泛基因组分析揭示“隐藏”的基因组变异》(Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations)为题发表在国际顶级期刊 Cell 上。

图|相关论文(来源:Cell )

由四川农业大学水稻研究院教授钦鹏、博士研究生王淏和陈薇兰、中科院遗传与发育生物学研究所博士鲁宏伟和陈倬、河北大学教授杜会龙为共同第一作者,四川农业大学水稻研究教授李仕贵和钦鹏、中科院遗传与发育生物学研究所研究员梁承志为共同通讯作者。

图|李仕贵团队合影(来源:钦鹏)

该研究成果揭示了结构变异的形成机制、对基因表达的影响,通过对亚群分布等分析,阐明了结构变异和基因拷贝数变异在塑造水稻环境适应和驯化方面的生物学意义。

该项研究成果最大的贡献是打开了结构变异研究的大门,将大大推进很多其他科研工作者的研究工作。

该团队为全球其他研究全队提供了丰富基因组变异资源,相关获取资源的网站在短短 3 个多月时间内已被 35 个国家研究人员访问上万次,这将大大促进水稻育种以及植物功能基因组学和进化生物学研究。

对 33 个水稻材料深度研究,揭示水稻基因中“隐藏”变异奥秘

中国在水稻育种部分研究领域已经获得多项重大突破,然而在种质资源发掘利用、现代育种技术应用以及加大优质品种的选育推广等方面还有进一步提升空间,李仕贵课题组一直在寻求该领域“卡脖子”问题的解决办法。

前期,他们在挖掘优良基因资源时遇到不少困难,其中就包括无法高效、准确地获取目标区段中所有的基因组变异,主要是因为相对比较容易获取的小的单核苷酸变异/小片段序列插入或删除(SNP/Indel),大的基因组结构性变异在以前无法高效鉴定得到,但很多研究又证明这具有很重要的生物学意义。

工欲善其事必先利其器,因此,该团队选择了 33 个水稻生产、广泛使用的具有多态性和代表性的材料,与交叉领域的课题组通力合作,以构建出高质量的基因组,然后利用这些高质量基因组相互比较发掘分析大的结构性变异。

图|33 个水稻遗传材料的泛基因组(来源:Cell )

钦鹏表示:“你可以把水稻理解成有 12 条染色体,每条染色体理论上代表一根线,基于传统手段,科学家只能对基因组序列进行碎片化拼接,导致有许多区间的变异无法观察到。”

比如前几年,相关研究都是基于短序列(short-reads)去鉴定结构构性变异,但这个方法有很大的局限性。short-reads 测序长度只有 150 bp,双端长度也仅能达到 300 bp,也有科学家利用 short-reads 拼接成几百上千 bp 的 DNA 片度,但与水稻基因组中上亿级别的 DNA 碱基数对比相差甚远,进而会导致有许多基因组变异被遗漏,尤其是结构性变异。

最近几年,科学家利用 long-reads 或基于 long-reads 测序拼接成的达百万级长度的 DNA 片段,可以一定程度上增加发现结构变异的机率,但与上亿单位级的水稻基因组序列长度相比,差异依然很大,还是存在很多重要的遗传变异信息无法准确快速获得。

因此,该团队与梁承志课题组合作研究变得尤为重要,他们基于 long-reads 组装形成了高连续性进组(平均长度达千万级片段),解决了之前很多无法检测到的序列变异,即该研究成果中所提及的“隐藏变异”。

图|遗传多样性水稻质种(来源:Cell )

值得关注的是,在基因序列组装层面,该成果还未将整个染色体全部连通,在一些复杂区域存在缺口,导致存在一些遗传变异信息的遗漏,但这并不影响该团队所呈现的、大量的遗传信息,未来该团队将会对这方面继续深入研究。

揭示基因组变异方向,助力理解变异密码的生物学意义

“基因组变异的方向”是一个很少被业界关注的一个问题,但对变异方向对理解有助于水稻变异的生物学意义理解和利用。该研究成果关键一点是为人们理解基因组变异方向提供了一个很重要的信息。

譬如,该研究成果提到,以前报道的水稻 SLB1、SLB2 序列的缺失与多分蘖等优良性状相关,但研究发现,在进化过程中,实际上是一特定水稻群体里获得了 SLB1、SLB2 序列,而非缺失。

图|李仕贵(左)、钦鹏(右)(来源:钦鹏)

该段序列的获得很有可能帮助了水稻磷元素吸收作用,从而帮助提高水稻产量而被保留在这一特定群体中,对解决农业生产问题也具有指导性意义。

首创“图形基因组”,解决传统基因组变异鉴定难题

目前绝大多数分析基因组变异的方法都是以十几年前构建的“日本晴”参考基因组为基础,但这种线性基因组仅代表一个特定材料中的 DNA 序列信息,不能包含其他水稻基因组中的变异信息。

譬如,A 位点在 3000 份不同的水稻资源中存在 50 种变异,线性基因组体现一种变异,但该团队所构建的“图形参考基因组”就能包含 50 种所有变异信息,结合配套的比对策略,相对线性基因组,就可以高效准确地发现基因组变异。

图|派生状态的 SVs 的推断和表征(来源:Cell )

该团队还对染色体排列的结构变化(Structural variations,SVs)进行了检查,发现 SVs 沿染色体分布不均匀,并发现了 140 个 SVs 热点区。值得注意的是,11 号染色体上的一个 SV 热点区域有 868 个独立的 SVs。”

图|钦鹏(来源:钦鹏)

随着科技的发展,科学家有很大可能在将来将把所有材料的遗传信息整合到图形基因组中,以后或许可能不再用日本人十几年前构建的参考基因组。

钦鹏巧妙地将他们发现的“图形基因组”比作智能手机。

“我们可以把目前我们构建的图形基因组看作第一代智能手机,它实现了从非智能手机到智能手机的跨越,但是还存在很多的不足,比如我们仅仅整合了 33 个材料中的部分遗传变异信息, 以及因为需要很多计算资源,导致不是每个团队都可以用我们图形基因组来检测变异。”

图|环境适应与驯化原理(来源:Cell )

随着研究的不断推进,未来将会有越多越多高质量基因组发布,把这些基因组中的变异信息全部整合到该图形基因组中,以及配套更好、更快的算法,这将会很好推动该领域研究的快速发展。

重视多领域交叉合作,保障国家粮食安全

钦鹏认为人的精力是有限的,一定要将有限的精力放在真正解决农业生产的问题上,刨根问底,了解生产一线的核心需求,同时也有要善于跳出问题本身限制,思考自身所做工作是否具有实际应用意义。

与此同时,生物学发展到今天,有很多项目涉及多领域交叉,不再是一个实验室可以单独能解决的问题,高度协同逐渐变成一种趋势。

图|钦鹏(来源:钦鹏)

即将迈入不惑之年的钦鹏对科研工作有很深的感悟,“耐得住寂寞,沉得下心,跳得出舒适圈,下得了田间地头”,看似平实的语言中体现了他对科研工作的热爱和坚守。

未来,他将结合遗传学、分子生物学等传统学科与生物信息学、结构生物学等交叉学科,继续深入发掘真正有应用价值的水稻高产优质基因资源,尤其是全球气候变暖及高温气候下仍可高产优质的基因资源,全面解析相关分子机理,从而保障国家粮食安全。

主营产品:多功能包装机,电子电气产品制造设备,振动盘