日本人祖先之谜最新发现,Science子刊:全基因组测序提示,日本人的祖先部分起源于汉族!


温馨提示,我们组建了论文统计免费答疑群和提供论文统计代做服务,如有需要可扫文末微信添加,具体答疑展示请点击查看:论文统计指导服务,真免费,永久免费,超靠谱,快来加入吧;统计代做展示可点击查看:论文统计代做服务,真优惠,真靠谱!。
      日本作为一个岛国,其祖先来源,一直是个谜底。全基因组测序(WGS)数据集是人类遗传学和生物医学研究不可多得的宝贵资源。通过全面分析遗传变异,WGS数据能够进行各种深入分析。这些分析为人类基因组变异的特征提供了洞见,揭示了人类种群的复杂历史,并阐明了进化适应和正选择的过程。
      2024年4月,一个由日本遗传学家、基因组学和基因分型专家组成的多机构团队在Science Advances 上发表了题为“Decoding triancestral origins, archaic introgression, and natural selection in the Japanese population by whole-genome sequencing” 的研究论文,该研究创建了日本全基因组/外显子组测序文库(JEWEL),这是一个包含来自日本各地3256名个体的高深度全基因组测序数据集。对JEWEL的分析揭示了日本人群的遗传特征,研究主要发现如下:首先,基于稀有变体的分析揭示了前所未有的精细遗传结构。结合群体遗传学分析,现代日本人可以被分解为三个祖先成分。其次,研究团队发现了未报道的失活(LoF)变体,并观察到对于特定基因,LoF变体似乎局限于比随机预期更有限的转录组集合中,PTPRD是其中的显著例子。第三,确定了与复杂性状相关的44个古人类片段,包括与2型糖尿病相关的位于NKX6-1的丹尼索瓦人衍生片段。这些片段大多数仅见于东亚人。第四,确定了近期自然选择下的候选遗传位点(如需获取原文,请在公众号扣6)

      目前,大规模的全人群WGS数据主要由欧洲血统的个体组成,且英国生物银行、FinnGen、deCODE等项目做出了重要贡献。基因组数据中的欧洲中心化不平衡可能导致精准医疗的不平等利益分配,并引发健康差距的担忧。例如,多基因风险评分通常显示,与其他血统相比,欧洲血统个体的准确性高出数倍。认识到捕获更广泛的人类遗传变异谱系对于实施针对特定人群的个性化医学至关重要,人们已协同努力对更多样化的民族群体样本进行测序,如精准医学跨组学计划和“研究人员所有人”项目。在此背景下,东亚(EA)人群WGS数据的生成也取得了显著进展。GenomeAsia 100K、SG10K联盟、ChinaMap项目以及西湖中国生物银行等关键计划已经建立。这些努力共同揭示了东亚人群更广泛的遗传变异范围,从而加深了研究人员对这一地区遗传多样性的理解。就日本人群的WGS数据而言,东北大学医学超级银行(ToMMo)项目做出了显著贡献。
      在此,该研究团队创建了日本全基因组/外显子组测序文库百科全书(JEWEL),该文库使用来自日本生物银行(BBJ)的样本进行了全面的WGS测序。BBJ是日本最大的生物银行之一,也是亚洲生物银行研究领域的领先机构。与基于日本东北部一般人口的ToMMo项目不同,BBJ是一个全国性的以患者为基础的生物银行,旨在推动基因组医学研究。JEWEL通过从不同地理区域取样,旨在更好地捕捉日本人的遗传多样性。主成分分析(PCA)已识别出日本人的双重人口结构,包括本岛集群和琉球群岛集群,而最近的研究则强调了本岛日本人内部存在显著的遗传异质性。通过WGS,JEWEL提供了进一步探索精细尺度人口结构的机会。此外,BBJ还通过审查医疗记录、后续调查和检查,对深度表型进行了广泛的收集和整理。这些表型包括原发性和继发性疾病诊断、纵向临床测试结果、既往病史、家族病史和生存信息。因此,JEWEL富含与疾病相关的潜在致病性变异,而详细的临床信息则允许对特定兴趣携带者进行有针对性的检查。在该研究中,研究人员进行了深入分析,包括使用常见和罕见变异体重新审视遗传结构,对LoF变异和人类基因敲除进行表征,以及识别可能从尼安德特人或丹尼索瓦人渗入的古人类基因片段。
      为了构建JEWEL,研究团队对来自日本七个地理区域医学机构的3256名个体进行了测序。这些区域包括北海道、东北、关东、中部、近畿、九州和冲绳,以下分别简称为北、东北、东、中、西、南和冲绳。除冲绳外,其他所有区域均位于日本列岛的主要岛屿上,通常称为本州;而该研究中的“冲绳”指的是琉球群岛。各区域的相对样本量大致反映了日本这些地区的人口规模。测序遵循标准的Illumina协议,实现了平均WGS覆盖深度为25.6×。变异体调用按照已建立的基因组分析工具包(GATK)最佳实践进行。最终数据集包含了来自23条染色体的45,586,919个单核苷酸变异体和9,113,420个插入或缺失(indels)。研究人员发现,有61%和40%的变异体分别未在基因组聚合数据库(gnomAD)和ToMMo中注册;其中,15,410,953(32.7%)个变异体仅在JEWEL中观察到。与微阵列基因分型数据相比,研究人员获得了高达99.971%的基因型一致性率。使用42,389,421个双等位基因常染色体单核苷酸变异体,研究人员估算出的转换与颠换比(Ti/Tv)为2.11,这与近期的大规模WGS分析结果一致。这些结果证实了JEWEL数据集在各方面均具备高质量,为深入分析该人群的遗传特征提供了可能。

【现代日本人的精细遗传结构及其三大祖先起源】
      研究团队首先基于184,036个独立筛选后的常见变异体进行了传统的主成分分析(PCA)。与先前研究一致,该分析再现了经典的“双簇”结构,即冲绳簇和本州簇。研究人员假设稀有变异体在揭示人群结构方面可能更具信息性,因此进行了PCA–统一流形逼近与投影(PCA-UMAP)分析,该分析仅使用了1,835,116个独立筛选后的稀有变异体。分析揭示了日本人群前所未有的精细结构。这一结构形似“蜂鸟”,不仅重新呈现了基于常见变异体的PCA所得的模式,还突出了几个显著特征。具体而言,研究人员观察到(i)本州各子区域之间的分离更为清晰,冲绳簇与本州簇之间的区别也更为明显;(ii)东北地区的个体聚集在一个细长狭窄的区域;(iii)来自西部和南部地区的个体还形成了额外的亚簇。
      为了更深入地了解人群结构,研究人员基于常见变异体进行了无监督的ADMIXTURE分析。为了确定最优的K值,研究人员使用了Structure Selector方法,该方法已被证明相较于其他估计器具有更优的性能。在此分析中,所有四个指标均支持K值为三作为祖先成分的最佳数量。此外,研究人员使用badMIXTURE评估了拟合优度,并观察到没有大残差的系统性模式,表明在K=3时整体拟合良好。因此,研究数据表明,日本人群可以通过三个祖先成分的混合(以下简称K1至K3)来最佳建模。K1至K3在冲绳、东北和西部地区的比例最高。K1(冲绳)成分在本州各亚组中的比例相对稳定,约为12%,但南部地区(与冲绳相邻)的比例较高,为22%。K2(东北)和K3(西部)成分从西向东呈梯度变化。研究人员还使用常见和稀有变异体进行了ADMIXTURE分析,并观察到了与冲绳相关的一致结果,且提供了更多细节。

【现代日本人的精细遗传结构及其三大祖先起源】
      研究人员试图获取关于K1至K3潜在祖先起源的线索。先前的研究表明,日本人携带绳文人和东亚祖先(以汉族为代表)。最近,基于古代基因组的分析提出了东北亚(NEA)祖先的存在。在此背景下,结合现代和古代绳文人、东亚人和东北亚人的遗传数据对研究的数据进行了分析。使用f4比率统计,研究人员估算出冲绳的绳文人祖先比例最高(28.5%),其次是东北地区(18.9%),西部地区最低(13.4%)。这些结果与先前的研究一致,证明了绳文人与冲绳人之间的高遗传亲和力。接下来,基于外群f3统计,研究观察到西部地区个体与汉族人共享的遗传漂变最高。然后,研究人员使用f4统计量(形式为f4(姆布蒂人,古代基因组;东北地区,西部地区))来评估东北地区与西部地区在与中国、韩国和日本古代基因组相关的遗传亲和力上的差异。结果显示,西部地区与黄河(YR)或黄河上游地区的古代中国人群,特别是中石器时代(MN)和晚石器时代的人群,存在显著更近的遗传关系。相比之下,东北地区个体与绳文人和冲绳的宫古岛(绳文人比例较高)的古代日本基因组以及朝鲜三国时代(TK)(公元4至5世纪)的古代韩国人(Korea-TK_2)存在显著更高的遗传亲和力。这些结果与报告一致,表明弥生时代的古代日本人和某些古代韩国群体具有较高的绳文人祖先比例。
      随后,研究人员采用qpAdm方法,遵循先前研究中的方法,估算了每个亚组中东北亚(NEA)、东亚(EA)和绳文人祖先的贡献。在此分析中,中国汉族被指定为东亚祖先的代表,而中国_WLR_BA_o和中国_HMMH_MN被归为一组,代表东北亚祖先。结果显示,三分模型与研究数据数据集拟合度良好。通过qpAdm估算的绳文人祖先比例及其趋势与f4比率测试的结果一致,揭示了冲绳地区拥有最高比例(25%),而西部地区最低(7.5%)。由于西部地区绳文人祖先比例较低,研究人员观察到东亚祖先在南部地区的比例最高,而非西部地区。然而,对于东北地区的模型拟合被拒绝,表现为极低的P值(P = 6.5 × 10−4)。在探索其他模型时,研究人员发现东北地区可以另建为韩国三国时代-2(Korea-TK_2,68%)和汉族(32%)的双向混合模型。值得注意的是,在本土组中,东北地区显示出最高的韩国三国时代-2比例。对于西部地区,最初包含NEA、EA和绳文人的三向混合模型显示出更好的拟合度,表现为较低的卡方值(9.14对比11.8)。此外,涉及绳文人、EA和NEA组合的双向混合建模未能成功。这些多方面的证据表明,K1和K3可能与绳文人和东亚祖先有关。尽管不太明确,但K2的祖先起源可能与日本和朝鲜半岛的古代人群(如韩国三国时代-2)有关。
      EWEL数据集使研究团队能够探索日本人群中可能具有临床重要性的蛋白质编码变异体。数据分析中,研究团队鉴定了9045个基因中的18,481个LoF(Loss-of-Function,功能丧失)变异体,其中包括9780个在gnomAD或ToMMo数据库中未注册的LoF变异体(约4700个),且其中相当一部分为罕见变异体。这些发现为研究人员理解日本人群中LoF变异体的分布特征及其与遗传结构的关系提供了重要线索。
 【LoF变异体和JEWEL数据集中的人类基因敲除】
      致病性变异体与人类基因敲除对于临床研究和药物开发具有极高的价值,它们可能揭示人类基因型与表型之间的联系。在ClinVar中注册的致病性变异体中识别出371个,并在包含ClinVar中致病性变异体的基因中发现了1723个未报告的LoF(功能丧失)变异体。研究人员搜索了人类基因敲除的实例,这些实例被定义为LoF变异体的纯合子或复合杂合子。通过注释检查和人工筛选,研究人员确定了23个可能具有临床相关性的人类基因敲除案例。特别地,研究人员注意到了一名ABCC2基因的复合杂合LoF变异体携带者。该基因的LoF已知会导致Dubin-Johnson综合征,这是一种与高胆红素血症相关的常染色体隐性肝病。该综合征通常呈良性,患者血液中总胆红素升高,导致慢性黄疸。研究人员获取了该个体的临床病史记录和血液检验结果,并证实了Dubin-Johnson综合征的诊断及高胆红素血症的临床表现。此外,在GJB2基因(与非综合征性感觉神经性听力损失相关)中存在LoF变异体纯合子的三名个体中,有两名被证实患有听力损失。这些例子表明,研究人员可以利用JEWEL数据集来识别可能导致疾病的潜在致病性变异体,并挖掘具有潜在临床意义的基因型-表型联系。
      研究团队进行了全基因组扫描,采用两种方法来检测日本人群中可能受到选择的候选基因组位点:综合单倍型评分(iHS)分析和FastSMC。iHS方法基于相位单倍型信息,能有效识别选择性清除。FastSMC是ASMC算法的一种扩展,旨在快速识别在特定合并时间下通过相同祖先遗传的成对相同区域(IBD),通过分析IBD共享,可以识别出从有限数量的共同祖先中过度遗传的区域,这可能表明存在近期的正向选择(例如,有利单倍型的频率迅速上升)。通过iHS分析,研究人员在全基因组显著性阈值(PiHS = 8.24 × 10−9)下确定了三个受到正向选择的位点,包括主要组织相容性复合体(MHC)、乙醇脱氢酶(ADH)簇和ALDH2。分位-分位图表明不存在系统性偏差。研究人员进一步探讨了五个代表性区域(西部、东部、东北部、南部和冲绳)中选择特征的潜在区域差异。研究人员发现本州岛地区的选择特征相似。但值得注意的是,冲绳地区ADH簇和ALDH2的信号相对较弱,未达到全基因组显著性水平。此外,研究人员采用FastSMC方法作为对iHS中观察到的信号进行验证的补充方法。研究人员首先评估了近期合并密度(DRC)统计量的拟合度。经验空模型的密度图和分位-分位图表明,尽管在处理较大的DRC值时可能效果不佳,导致保守的近似P值,但总体上伽马拟合效果较好。总之,该方法在过去50代中确定了四个可能受到选择的候选位点,其中包括iHS中显著的三个位点(ADH、ALDH2和MHC),以及一个候选位点2p25.3。这三个位点(ADH、ALDH2和MHC)也在之前的研究中通过单体型密度分数(SDS)方法被检测到,进一步证实了日本人群中免疫系统和酒精代谢途径上存在强烈的选择压力。

【基于iHS和FastSMC分析的日本人群中的正选择信号】

【过去50代内,通过FastSMC检测到的显著正选择候选位点】
      在该研究中,研究人员构建了JEWEL数据集,该数据集包含了来自日本七个不同地区的3256名日本人的临床信息和全基因组测序(WGS)数据。这一全面的遗传数据集使研究人员能够深入探索日本人口和医学遗传学领域尚未涉足的领域。研究人员强调该研究的几个独特方面。首先,研究人员的分析揭示了日本人群的精细人口结构,支持并印证了“三元起源”模型。通过JEWEL数据集,展示了该数据集在临床应用上的潜力,并研究了日本人群中的尼安德特人和丹尼索瓦人遗传遗产,探讨了它们与各种表型之间的关联,这是迄今为止规模最大的非欧洲人群分析。
      该研究揭示了日本人群的遗传特征,这些特征在以往基于微阵列数据的研究中难以察觉。该研究所构建的大规模数据集不仅为日本人群内部的遗传研究提供了重要参考,也为其他人群的遗传研究树立了标杆。该研究强调了全基因组测序(WGS)在个性化医疗和其他临床环境中的潜在应用,并强调了将WGS扩展到不同人群的重要性,以解码特定人群的遗传特征,并更深入地理解人类历史。

具体答疑展示请点击查看:论文统计指导服务,真免费,永久免费,超靠谱,快来加入吧
同时,对于部分需要论文期刊统计代做的学员,也可以添加yc135123,备注“代做”。公司成立悠久,行业认可,售后保障。具体可点击查看:论文统计代做服务,真优惠,真靠谱!

到顶部