发文单位:河北农业大学和尊龙凯时
发文作者:河北农业大学张彩英、邵振启、孔佑宾、杜汇、李文龙、杨占武和尊龙凯时李祥孔为论文共同第一作者,河北农业大学张彩英教授、李喜焕教授、马峙英教授和尊龙凯时首席科学家田仕林研究员为论文共同通讯作者。
发表期刊:Nature Genetics(IF=31.7)
发表时间:2024年9月9日
研究结果:该研究组装了一个高质量大豆现代品种Nongdadou2基因组(NDD2),新产生了547份来自中国9个省份和美国大豆种植区的种质高深度重测序数据,并与29个已发表大豆基因组构建了大豆的图形泛基因组,为SV在大豆改良中的作用提供了新资源和新见解。该研究中,PacBio、Nanopore、Illumina、Hi-C、Bionano等建库测序及分析服务由尊龙凯时提供。
研究亮点
1.组装了现代品种农大2号(NDD2)的高质量基因组,鉴定了所有染色体的着丝粒序列和大部分(36/40)端粒序列。并结合29个已发表的大豆基因组,重新构建了大豆图形泛基因组,图形中包含47,058个非冗余SVs。2.鉴定了NDD2基因组中特有的13个插入与缺失,揭示了其与大豆的产量和种子品质等性状相关;发现了与大豆地域适应性有关倒位变异;还基于大的染色体间的易位变异提出了野生大豆(G.soja)的分化模型,并推断出其在现代栽培品种中的继承规律。3.通过 SV-GWAS分析发现了大量与大豆产量及种子质量性状显著相关SVs,为大豆育种改良提供重要基石。
研究内容
大豆提供了蛋白质、油脂和多种与健康相关的化合物。理解基因组结构变异(SVs)调控农艺经济性状的机制对于大豆现代育种改良非常重要。该研究组装了大豆现代品种NDD2的高质量基因组,并与29个已报道的大豆基因组重新构建了大豆图形泛基因组,鉴定出47,058个非冗余SVs,影响了25,814个功能基因。研究还生成了547份高深度重测序(平均18.05X)的种质资源,鉴定并验证了13个NDD2独有的SVs,这加深了对于基因组变异生物学的理解。该研究发现了一些与种子蛋白质和重量形成相关的插入/缺失片段,1个适应干旱的大倒位,以及1个大型易位事件,揭示了决定大豆品种分化的关键遗传变异。对547份种质资源的GWAS分析,鉴定了6,013个SVs与22个产量和种子质量相关的性状(来源于10个地点和年份环境)显著相关,包含了1,761个调控基因功能的SVs,其中12个通过调控基因GmMQT来影响大豆的油和异黄酮含量。该工作为基因组结构变异在大豆改良中的作用提供了资源和见解。
主要结论
1.高质量的大豆现代品种NDD2基因组
通过整合五种测序技术(PacBio single-molecule real-time、Nanopore、Bionano optical map、Hi-C和Pair-end)对NDD2基因组进行了测序,并使用了一种改进的四步法组装策略生成了NDD2的染色体水平基因组,基因组大小为1,013.66 Mb,contig N50为27.16 Mb,与29个已报道基因组中最佳的相当。组装精准度QV值为41.83,组装完整度衡量为99.70%的BUSCO完整性和98.79%的超保守核心真核基因。与29个已发表的染色体级大豆基因组的平均共线性率为96.34%。在NDD2基因组的所有20条染色体中组装了Cent91/92大豆特异性着丝粒重复序列,还成功组装了36/40个端粒序列。与29个基因组相比,代表了最佳的端粒组装。总之,本研究新生成了一个具有良好准确性、完整性和连续性的现代品种大豆基因组。
在NDD2基因组中预测了560.92 Mb(55.34%)的转座子,其中长末端重复序列(LTRs)占比最高(44.39%),主要是Gypsy(42.85%)和Copia(20.20%)。鉴定了58,899个蛋白编码基因,其中96.70%具有功能注释,8,503个显示出Gypsy和Copia插入。值得注意的是,在NDD2中新预测了48个基因,全部都位于至少一个已发表的基因组中的gap区域,其中17个基因具有转录组或功能数据库的证据。此外,随机选择了8个新预测的基因得到了PCR和Sanger测序的验证。
图1 NDD2大豆基因组特征
2.解析NDD2中的结构变异(SVs),为现代农业育种提供新见解
高质量的NDD2基因组使得在现代大豆育种中探索结构变异(SVs)成为可能。利用NDD2基因组和29个已发表的大豆基因组来重新构建大豆的图形泛基因组,并鉴定了47,058个非冗余SVs,其中包括37,304个INS/DEL(插入/缺失,≥50 bp),3,071个倒位(INV,1.01–29.14 kb)和6,683个易位(TRANS,1.01–19,040.53 kb)。基于NDD2基因组对这些SV进行基因结构注释分析,发现SV影响了25,814个基因的结构,其中包括23,119个基因由INS/DEL-影响、719个由倒位影响、1,976个由易位影响,这些SVs可能通过调控基因表达来影响相关的农艺经济性状。总体而言,这些SVs为大豆改良提供了重要分子资源。
在图形中的INS/DEL集合中,我们鉴定了13个NDD2特有的INS/DEL,并通过对NDD2基因组本身和26个已发表的大豆基因组的长读序列进行比对分析后得以证实,还通过PCR实验和Sanger测序实验再次验证。此外,这13个NDD2特异性SVs的长度范围为238-6231bp,并在547个重测序的品种中得到了31-69个样本的支持。特别值得注意的是,其中7个NDD2特有的SVs可以在大豆产量和种子质量性状维度显著地将547份大豆种质分成两类,表明这些SVs可能与大豆育种中的性状分化相关。
首先,在NDD2的6号染色体上检测到了1个DEL变异,包括了238-bp序列在其他大豆基因组中缺失(DEL238),位于Glyma.NDD2.06G308200基因(编码B细胞受体相关蛋白)的内含子区域。通过对547份种质的蛋白质含量(SPC)和百粒重(HSH)性状数据分析,含有这238-bp序列的种质的蛋白质含量和种子重量同时地显著高于其它种质(图2)。在种子灌浆的关键时期的Glyma.NDD2.06G308200的表达水平也证实,该基因在NDD2品种(含有238-bp序列;高SPC和高HSH)的表达量是Liaodou14品种(缺失238-bp序列;低SPC和低HSH)的3.7倍,这是首次识别一种能够同时增加大豆蛋白质含量和种子重量的SV,为大豆育种中克服蛋白质含量和产量权衡提供潜在思路。
图2NDD2特有的DEL238对种子蛋白质含量(SPC)和百粒重(HSW)的影响
接着,在5号染色体上鉴定出一个新倒位(INV05,3.06 kb),可能与大豆适应不同地理区域有关(图3)。在547份大豆重测序种质中,INV05的频率从地方品种的37.70%(23/61)增加到改良品种的69.75%(339/486),这意味着INV05的分化对大豆育种的贡献。我们发现一个脱水响应元素结合(DREB)转录因子基因Glyma.NDD2.05G253650位于INV05中,其断裂点位于启动子区域和3'UTR。这导致了在NDD2中该基因的上游3 kb区域出现11个特定的调控元件(与干旱、ABA和光响应等相关),以及在下游273 bp区域出现显著差异(75.83%,可能导致调控变化),与其对应的W05基因组中的基因相比,这一点也得到了分别拥有INV05的C02(Tiefeng 18)和拥有inv05的C01(Xudou 1)的证据支持。DREB在植物应对多种非生物胁迫中发挥作用,如低温或高温、盐碱、低氮,尤其是干旱,例如通过过表达大豆GmDREB1增强小麦的抗旱性。我们推测INV05参与了大豆在种植区域对干旱和温度的适应。由于95%的重测序资源来源于黄淮海生态区,这是中国最重要的大豆驯化中心,我们分析了该区域改良品种中INV05的分布。INV05的频率沿着秦岭-淮河线呈现出规律性的变化,该线是南北区域的自然屏障,导致气候条件的差异,南方温度和降水量较高(湿润,年降水量>800毫米),而北方则较为半湿润(年降水量<800毫米)。北方资源中显著更高的INV05频率(76.90%)相比南方区域的较低频率(50.00%,P=5.5E-04),说明了大豆适应与人工改良过程的一致性。类似地,北方各省区的INV05频率分别为山西82.86%、河北82.08%、山东75.00%和河南56.25%,显示出与干旱程度从山西到河南递减的趋势(图3)。超过80%的高频率与山西位于黄土高原地区干旱易发土壤和河北位于华北平原漏斗形区域半干旱易发土壤、地下水缺乏和降水较少的情况一致。
图3 大豆5号染色体的倒位变异(INV)与地域适应性有关
最后,通过对NDD2和泛基因组资源的染色体共线性分析,并将这些大豆的Hi-C数据与NDD2作为参考进行比对,我们将野生大豆W05和NDD2之间Gm11和Gm13染色体上的两个小的染色体间易位事件从约0.12 Mb和约0.14 Mb扩大到了约19.1 Mb和约4.5 Mb(图4)。除了W02被新鉴定为与W05存在染色体内易位外,其余的泛基因组资源均与NDD2表现出相同的模式。我们还通过序列分析发现了W05和野生大豆PI4834637之间的染色体间易位。由于这些易位,野生大豆被分为两种类型:类型I(W01、W03和PI483463)具有较长的GM13染色体(45.7 Mb–47.6 Mb)和较短的Gm11染色体(39.2 Mb–41.9 Mb),而类型II(W02和W05)则显示出较长的Gm11染色体(53.5 Mb–54.7 Mb)和较短的Gm13染色体(31.5 Mb–31.9 Mb),这表明易位可能发生在野生大豆中,而NDD2及其他泛基因组的代表性改良品种在育种过程中继承了类型I。基于上述发现,我们提出了一个野生大豆(G.soja)的两类型分化模型,从大结构变异的角度阐明了栽培大豆的祖先,暗示了大豆中的一个关键分化事件。
此外,通过分析NDD2与其类型I祖先野生大豆之间染色体间易位区域的基因组成变化,我们发现Gm13和Gm11染色体上分别有261个和76个NDD2特有基因(同源性低于20%),这清楚地反映了育种过程中的基因分化。在这些基因中,我们发现一些可能与栽培大豆的特性有关,例如与花青素积累相关的F-box/kelch-repeat蛋白基因Glyma.NDD2.11G275400,与植物生长习性相关的基因Glyma.NDD2.13G154100,与病原识别和植物抗病性相关的富含亮氨酸重复受体样蛋白激酶基因Glyma.NDD2.13G343800和Glyma.NDD2.13G343900,以及与种子萌发和耐受多种非生物胁迫相关的类胚蛋白基因Glyma.NDD2.13G154300,这与栽培大豆的进化和改良方向一致。此外,我们发现NDD2与三种野生大豆相比,GM13和Gm11染色体上分别有35个和9个基因拷贝数变异(CNVs),其中43个基因的拷贝数增加,1个基因的拷贝数减少,这表明基因拷贝数变异往往会带来基因表达和相应性状的变化,是性状变异的一个来源。
图4 大豆染色体Gm11与染色体Gm13的易位演化模型
3.GWAS分析表明结构变异与重要性状相关
对547个具有高基因组覆盖深度(平均18.05X)的代表性材料样本进行了重测序,并评估了31个性状,包括6个产量性状和16个种子质量性状,在2019年至2021年间中国的十个不同地点和年份的环境下进行了评估,以及九个植物学特征,即花、植株毛、种皮和脐颜色、种子光泽、生长习性、植株类型、荚炸裂和植株倒伏在单一控制环境中进行了评估。
从这些样本中,使用NDD2基因组作为参考,探索了749,714个插入/缺失结构变异。群体结构和遗传关系的分析表明不存在群体偏倚,这使得该样本集合适合进行GWAS分析。基于这些结构变异,在每个环境中31个性状的平均值、最佳线性无偏预测值(BLUP)以及在10个环境中性状的总平均值,进行了GWAS分析。总共发现了14,237个显著关联的非冗余结构变异,包括产量相关的4,458个,种子质量相关的6,552个,植物学性状相关的3,333个。值得注意的是,发现了6,013个同时符合BLUP值和总平均值的非冗余结构变异,并分别找到了1,043个和4,970个与产量和种子质量相关的结构变异。还发现,这6,013个非冗余结构变异的69.73%的关联信号与SNP-GWAS的关联信号一致,这表明SV-GWAS可能提供额外的关联信号。在调控区域发现了989个结构变异,在基因区域发现了772个需要重点关注的结构变异,因为它们可能直接影响调控元件和基因的功能。此外,还发现,在上述三类性状中经常共享GWAS基因。
这些SVs提供了对大豆育种中基因型与表型关系的全面理解。发现在6号染色体上的15.25–15.35 Mb区域内,包含21个SVs,与重要的产量相关性状每株植物荚数(PN)有关。此外,在5号染色体上发现了一个与6种种子品质性状相关的基因组区域,该区域在181-kb区域内包含了137个SVs。在11号染色体上鉴定了种子异黄酮含量的最高关联峰值,该区域包含363个SVs,覆盖1.04Mb的区域。
图5 5号染色体上控制种子多重品质性状的多效性基因GmMQT
讨论
在本研究中,组装了大豆现代栽培品种NDD2的高质量参考基因组,该基因组显示出更高的准确性、完整性和连续性,具有更高的N50值、更少的缺口,并且很好地组装了着丝粒和端粒序列,为进一步的生物学和遗传学研究提供了一个独特的基因组资源。
越来越多的研究揭示了结构变异(SVs)在作物改良中的关键作用,然而,SVs对大豆改良的影响却尚不清楚,尤其是对产量和种子质量性状的影响。本研究发现了可能影响大豆产量和种子质量性状,以及调控对不同环境适应性基因的大规模SVs,并在这些SVs中鉴定了许多优势等位基因,这些发现加深了对SV在大豆育种中基因型-表型关系中重要性状作用的理解。
本研究大约95%的重测序样本来自黄淮海大豆种植区,该地区由于地理和气候因素的多样性,栽培大豆中存在丰富的遗传多样性。由于大约70%的样本与先前的研究不同,且重测序深度最高,识别了更多更准确的大豆改良用结构变异(SVs),GWAS分析鉴定了与蛋白氮、种子油、异黄酮和生育酚含量相关的SVs,还发现了61个种子蛋白质含量(SPC)和154个百粒重(HSW)的SVs。新识别的SVs不仅更新了解析相关性状遗传基础的分子信息,还为大豆育种中的基因组辅助选择提供了有用的分子靶标。
参考文献:
[1] Zhang, C., Shao, Z., Kong, Y. et al. High-quality genome of a modern soybean cultivar and resequencing of 547 accessions provide insights into the role of structural variation. Nat Genet (2024).
Copyright@2011-2024 All Rights Reserved 版权所有:尊龙凯时 京ICP备15007085号-1