Cell:研究人员利用机器学习在全球微生物组中发掘抗菌肽,为探寻新型抗生素提供参考!


温馨提示,我们组建了论文统计免费答疑群和提供论文统计代做服务,如有需要可扫文末微信添加,具体答疑展示请点击查看:论文统计指导服务,真免费,永久免费,超靠谱,快来加入吧;统计代做展示可点击查看:论文统计代做服务,真优惠,真靠谱!。
      随着抗生素耐药性感染日益难以通过传统疗法有效治疗,这一挑战变得愈发严峻。事实上,目前每年约有127万人死于这类感染。因此,迫切需要开发新型抗生素发现方法。近年来,计算方法得到了快速发展,以加速我们识别新型抗生素的能力,其中包括抗菌肽(Antimicrobial Peptides, AMPs)的识别。
      2024年6月5日,一篇题为 “Discovery of antimicrobial peptides in the global microbiome with machine learning” 的论文在Cell上发表,该研究通过机器学习方法识别了近百万条原核生物AMP序列,为抗生素的发现提供了一个开放访问的资源库。这些序列来源于(宏)基因组数据中的候选AMPs(candidate AMPs, c_AMPs)。值得注意的是,其中大多数c_AMP序列之前并未被描述过。

      抗菌肽(Antimicrobial Peptides, AMPs)广泛存在于生命体的各个领域中,是由短序列(该研究中操作性地定义为10-100个氨基酸残基)组成的,能够干扰微生物生长的物质。AMPs主要通过干扰细胞壁完整性并导致细胞裂解来发挥作用。天然AMPs可以通过蛋白水解产生,通过非核糖体合成,或者,如该研究所关注的,它们可以在基因组中编码。在自然栖息地中,细菌生活在复杂的对抗与共生平衡中。AMPs在调节这种微生物相互作用中发挥着重要作用,能够排挤竞争者菌株,促进合作。例如,病原菌如志贺氏菌属(Shigella spp.)、葡萄球菌属(Staphylococcus spp.)、霍乱弧菌(Vibrio cholerae)和李斯特菌属(Listeria spp.) 会产生AMPs来消除竞争者(有时是同种内的竞争者),从而占据其生态位。AMPs作为潜在的治疗药物具有广阔前景,并已被临床用作抗病毒药物(如恩夫韦肽和特拉匹韦)。具有免疫调节特性的AMPs目前正在临床试验中,以及可能用于治疗酵母和细菌感染的肽类(如普拉克索、LL-37和PAC-113)。尽管大多数AMPs表现出广谱活性,但也有一些仅对同一物种或属的密切相关成员具有活性。这样的AMPs比传统的广谱抗生素更具靶向性。 此外,与常规抗生素不同,许多AMPs的耐药性进化发生率较低,并且与其他广泛使用的抗生素类别之间不存在交叉耐药性。
      由于技术限制,尤其是区分真实蛋白质编码序列与假阳性序列的挑战,宏基因组分析在AMPs研究中的应用一直受到限制。因此,在(宏)基因组分析中,小型开放阅读框(small open reading frames, smORFs)的重要性历来被忽视。近年来,在人类相关smORFs的宏基因组分析方面取得了显著进展。这些进展结合了机器学习(Machine Learning, ML)技术,用于识别编码特定功能类别蛋白质的smORFs。值得注意的是,最近的一项研究利用预测的smORFs从人类肠道微生物组的宏基因组样本中发现了约2000种AMPs。然而,重要的是要注意到,人类肠道仅代表整体微生物多样性的一部分,这表明在全球范围内多样化的栖息地中,从原核生物中发现AMPs的潜力仍然巨大。
      在该研究中,研究团队利用机器学习来预测并编录目前公共数据库中全球微生物组中的AMPs。通过计算分析63,410个公开可用的宏基因组和87,920个高质量微生物基因组,研究人员发现了大量AMP的多样性。此外,研究人员从AMPSphere中合成了100种c_AMPs,并发现其中79种具有活性,其中63种在体外对临床上重要的ESKAPEE病原体(被认为是公共卫生关注的重点)表现出抗菌活性。这些肽类进一步与加密肽(Encrypted Peptides, EPs)进行了比较,EPs是隐藏在蛋白质序列中并通过计算挖掘的肽序列。
      AMPSphere集成了使用Macrel预测的c_AMPs,Macrel是一个通过随机森林算法从大型肽数据集中预测AMPs的流程,其重点在于精确度而非召回率。该流程被应用于63,410个全球分布的公开可用宏基因组和87,920个高质量细菌和古菌基因组。除了在AMP专用数据库——抗菌肽数据仓库(DRAMP)3.0版本中有显著匹配(定义为氨基酸一致性≥75%,E值≤10⁻⁵)的序列外,单个样本中存在的序列均被移除。这产生了5,518,294个基因,占预测smORFs总数的0.1%,编码了863,498条非冗余c_AMPs(平均长度为37±8个残基)。与已验证的具有抗菌活性的序列类似,AMPSphere中的c_AMPs呈现出正电荷(4.7±2.6)、高等电点(10.9±1.2)、两亲性(疏水矩为0.6±0.1)以及结合膜或其他蛋白质的潜力(Boman指数为1.14±1.1)。如预期那样,总体而言,AMPSphere中肽的理化性质分布、DRAMP版本3.0以及Macrel中使用的正训练数据集之间的相似性高于与负训练集(假定为非AMPs)的相似性。然而,AMPSphere中的c_AMPs平均长度(37±8个残基)比DRAMP版本3.0中的(28±22个残基)更长,并且研究人员在其他特征(如电荷、脂肪族性、两亲性和等电点)的分布上观察到了差异。

【AMPSphere 包含了来自数千个宏基因组和高质量微生物基因组的 836,498 个非冗余抗菌肽(c_AMPs)】
      随后,研究团队评估了smORF预测的质量,并在独立的、公开的元蛋白质组或元转录组数据中检测到了AMPSphere中20%(172,840条)的c_AMP序列,这些序列属于AMPSphere中包括的人类肠道、植物等多个栖息地。接着,研究人员对所有c_AMPs进行了一系列计算机模拟的质量测试。其中,一个子集(9.2%或80,213条c_AMPs)通过了所有测试,该子集被后续指定为高质量c_AMPs。使用其他AMP预测系统(AMPScanner v2、ampir中的成熟肽模型、amPEPpy、APIN、AI4AMP和AMPLify)进行测试时,研究人员观察到AMPSphere中98.4%(849,703条肽)的c_AMPs也被至少一个其他AMP预测系统预测为AMP。大约15%(863,498条肽中的132,440条)的AMPSphere c_AMPs被所有使用的方法共同预测。

【AMPSphere候选物的质量控制】
      AMPSphere涵盖了72种不同的栖息地,这些栖息地被归类为八个高级别栖息地组,如土壤/植物(占AMPSphere中c_AMPs的36.6%)、水生(24.8%)和人类肠道(13%)。除了人类肠道外,大多数栖息地似乎都远未饱和,在已发现的c_AMPs方面。实际上,大多数AMPs都很罕见(检测到的中位数为99次,即数据集的0.17%;若仅限于高质量c_AMPs,则检测到的中位数为81次,即数据集的0.14%),其中83.97%的AMPs在少于1%的样本中被观察到。仅有10.8%(93,280条)的c_AMPs在多个高级别栖息地组中被检测到(以下简称“多栖息地c_AMPs”);这一比例比随机分配栖息地给样本的预期值小7.25倍(pPermutation < 10−300;参见STAR方法部分“多栖息地和稀有c_AMPs”)。即使在高级别栖息地组内,c_AMPs在不同栖息地之间的重叠也远低于随机预期(低2.4至192倍,pPermutation < 5.4 × 10−50)。

【AMPSphere 包含了来自数千个宏基因组和高质量微生物基因组的 836,498 个非冗余抗菌肽(c_AMPs)】
      许多AMPs是通过较大蛋白质的翻译后裂解产生的。例如,EPs是通过计算从人类蛋白质组和其他已知具有高度活性的蛋白质序列中检测到的片段。EPs呈现出多种二级结构,并像已知的自然AMPs一样作用于细菌细胞膜,但与已知AMPs相比具有不同的物理化学特性。 AMPSphere仅考虑了由专用基因编码的肽段。然而,研究者假设其中一些c_AMPs可能是由较大蛋白质在基因组水平上裂解产生的。为了验证这一假设,研究人员将AMPSphere中的c_AMPs与GMGCv152中的全长蛋白质进行了比对,并观察到约7%(61,020条)的c_AMPs与标准长度的蛋白质具有同源性,其中27%的匹配项与较长的蛋白质共享起始密码子。这表明全长蛋白质的提前终止是产生新型c_AMPs的一种机制。
      为了研究与AMPs同源的全长蛋白质的功能,研究人员将GMGCv152中的匹配蛋白质映射到eggNOG 5.0中的直系同源组(OGs)。在AMPSphere的匹配结果中,研究人员识别出3,792个(共43,789个)显著富集的OGs(经Holm-Sidak方法多重假设校正后,pHypergeom.< 0.05)。尽管未知功能的OGs占所有识别出的OGs的53.8%,但单独考虑时,这些OGs的平均大小小于其他类别的OGs。因此,尽管每个OG中c_AMP的匹配数量相对较少,但与GMGCv1.52中OGs的背景分布相比,未知功能的OGs在c_AMP匹配中最为富集,平均富集倍数高达10,857倍(pMann ≤ 3.9 × 10−4)。

【编码大蛋白的基因突变会产生作为独立基因组实体的c_AMPs】
      研究人员观察到,在ProGenomes243中,只有一小部分(5.9%,pPermutation = 4.8 × 10−3,NSpecies = 416)的c_AMP家族存在于同一物种≥95%的基因组中,这里称之为“核心”基因组。这与先前的研究结果一致,该研究发现AMP的产生具有菌株特异性。相比之下,在ProGenomes243物种中,全长蛋白质家族作为核心基因组的比例高达约68.8%。当来自同一物种的两个基因组属于同一菌株(ANI值在99.5%至99.99%之间)时,它们共享至少一个c_AMP的可能性高出1.9倍(pFisher = 2.2 × 10−92)。这种菌株特异性行为的一个例子是AMP10.018_194,它是唯一在支原体肺炎(Mycoplasma pneumoniae)基因组中发现的c_AMP。传统上,根据P1黏附素基因的不同,支原体肺炎菌株被分为两组。在该研究中的76个支原体肺炎基因组中,29个被归类为1型,29个被归类为2型,其余18个在该分类系统中尚未确定(见STAR方法部分“附属AMPs的确定”)。在29个2型基因组中,有26个包含AMP10.018_194,另有两个未确定类型的基因组也包含该AMP,但所有1型基因组中均不含此AMP。
 
【AMPSphere数据库中的AMP变异依赖于分类学】
      为了研究合成肽的性质和结构,研究团队首先将它们的氨基酸组成与实验验证序列的现有数据库中的AMPs进行了比较(包括DRAMP版本3.0、抗菌肽活性与结构数据库[DBAASP]以及抗菌肽数据库[APD])。总体而言,由于Macrel的机器学习模型是使用已知的AMPs进行训练的,因此这些肽的组成与预期相似。值得注意的是,AMPSphere序列中脂肪族氨基酸残基(特别是丙氨酸和缬氨酸)的丰度略高。然而,这些AMPSphere序列与先前研究的EPs(内源性肽)在组成上始终存在差异。已识别的c_AMPs与已知AMPs在氨基酸组成上的相似性表明,它们可能具有相似的物理化学特性和二级结构,这两者均被公认对抗菌活性有影响。c_AMPs表现出与数据库来源AMPs相似的疏水性、净电荷和两亲性。此外,它们还显示出一定程度的无序构象倾向,并且与其他EPs相比,具有较低的净正电荷。
      为了评估AMPSphere中c_AMPs的结构和抗菌特性,研究人员首先筛选出适合体外实验的肽段,这些肽段在水溶液中具有良好的溶解性和易于化学合成的特点。基于其普遍性和分类多样性,研究人员选择了一组包含50条肽序列的高质量AMPs。此外,为了确保对文中所报告肽段的公正评估,研究人员首先排除了在已发表数据库中存在同源序列的肽段,然后随机从AMPSphere中选择了另外50条肽段,其中包括25条Macrel42预测的AMP概率至少为0.6的肽段和25条概率较低的肽段(0.5–0.6)。随后,使用圆二色光谱法(Circular Dichroism, CD)对活性c_AMPs的二级结构进行了实验评估。与数据库中记录的AMPs相似,AMPSphere来源的肽段在形成α-螺旋结构方面表现出不同的倾向性;同时,其中一些肽段在所有分析介质中均呈无序状态或形成β-反平行构象。值得注意的是,尽管这些肽段的氨基酸组成与AMPs和EPs相似,但它们在纯水和甲醇/水混合物中均显示出异常高的β-反平行结构含量。研究人员将这一发现归因于丙氨酸和缬氨酸残基含量的轻微增加,这些残基已知倾向于形成β类结构,并偏爱β-反平行构象。
      研究人员针对与人类健康密切相关的八种人类肠道微生物群成员进行了AMPs筛选。测试了属于四个菌门(疣微菌门、拟杆菌门、放线菌门和芽孢杆菌门)的共生细菌,包括黏附阿克曼氏菌(Akkermansia muciniphila)、脆弱拟杆菌(Bacteroides fragilis)、多形拟杆菌(Bacteroides thetaiotaomicron)、普通拟杆菌(Bacteroides uniformis)、粪副拟杆菌(Phocaeicola vulgatus,前称Bacteroides vulgatus)、柯林斯氏菌(Collinsella aerofaciens)、梭菌(Clostridium scindens)和副拟杆菌(Parabacteroides distasonis)。尽管已知天然AMPs通常不针对微生物组菌株,但该研究发现,在合成的100条AMPs中,有58条(58%)在低浓度(8–16 μmol L−1)下至少对一种共生菌株具有抑制作用。尽管这一浓度范围高于针对病原体最活跃的肽(1–4 μmol L−1),但仍处于先前研究中AMPs的高活性范围内。有趣的是,所有分析的肠道微生物组菌株至少对四种c_AMPs敏感,其中黏附阿克曼氏菌、普通拟杆菌、粪副拟杆菌、柯林斯氏菌、梭菌和副拟杆菌的敏感性最高。总体而言,在合成的100条肽中,有79条对病原体和/或共生菌表现出抗菌活性。研究人员还对高质量组中五种高活性肽的随机序列进行了肠道共生菌筛选。与针对病原体菌株的结果相似,仅Lachnospirin-1_scrambled在64 μmol L−1浓度下对梭菌表现出微弱的活性。

【c_AMPs的氨基酸组成、结构、抗菌活性及作用机制】
      为了研究选定AMPs对革兰氏阴性细菌外膜潜在的渗透化作用,研究人员进行了1-(N-苯基氨基)萘(NPN)摄取实验。NPN是一种亲脂性荧光团,在细菌外膜中存在的脂质存在下,其荧光强度会增加。NPN的摄取表明膜发生渗透化和损伤。在评估的39条对鲍曼不动杆菌(A. baumannii)具有活性的肽段中,有10条肽段在暴露45分钟后,导致外膜显著渗透化,荧光水平至少比多粘菌素B高50%。在铜绿假单胞菌(P. aeruginosa)细胞中,测试的6条肽段中有4条显示出比多粘菌素B更高的渗透化作用。研究结果表明,AMPSphere中的测试AMPs主要通过渗透化外膜而非去极化细胞质膜来发挥作用,这揭示了与人体蛋白质组中的经典AMPs和EPs相似的作用机制。
      该研究中,研究团队利用机器学习(ML)技术在全球微生物组中鉴定了近百万个候选抗菌肽(AMPs)。在先前专注于人类肠道微生物组的研究基础上,进一步从全球微生物组的63,410个公共可用宏基因组以及ProGenomes2数据库中的87,920个高质量微生物基因组中,对AMPs进行了分类。研究团队创建了AMPSphere,这是一个开放访问的公共资源,包含了来自72个不同生境的863,498条非冗余肽段和6,499个高质量AMP家族,这些生境包括海洋、土壤环境以及人类肠道。大多数候选AMPs(91.5%)是先前未知的,且在其他数据库中缺乏可检测的同源物,而大约五分之一的AMPs有翻译和/或转录的证据,因为它们可以在独立的公共可用宏转录组或宏蛋白质组数据集中被检测到。


到顶部