【AI前沿】清华系细胞大模型登Nature子刊!能对人类2万基因同时建模,代码已开源



生命科学领域的基础大模型来了!
来自清华、百图生科的团队提出的单细胞基础大模型scFoundation,登上Nature Methods。

该模型基于5000万人类单细胞测序的数据进行训练,拥有1亿参数,能够同时处理约20000个基因。
团队在模型架构上进行了创新,相同参数量下计算时间是传统Transformer架构的3%左右。相关研究成果也被NeurIPS2024接收。
清华大学自动化系博士研究生郝敏升为该论文的第一作者。清华大学张学工教授,马剑竹教授,百图生科宋乐教授为通讯作者。
作为基础模型,它在细胞测序深度增强、细胞药物响应预测和细胞扰动预测等下游任务中表现出卓越的性能提升,并为基因网络推断和转录因子识别提供了新的研究思路。
细胞基础大模型登Nature子刊
通过在大规模语料库上的训练,大模型才具备了基本的语言理解和识别能力。
在生命科学领域,细胞可以被视为拥有自身“语言”的基本结构和功能单元,由DNA序列、蛋白质和基因表达值等构成无数“词语”的“句子”。
那么随之而来的问题是:
能否基于大量细胞的“句子”来开发细胞的基础模型?
目前训练大规模单细胞数据主要存在以下三点挑战:
1、基因表达预训练数据需要涵盖不同状态和类型的细胞景观。然而目前大多数单细胞数据组织松散,全面完整的数据库仍然缺失。
2、在训练过程中,传统的transformer难以处理近20000个蛋白质编码基因构成的“句子”,这使得现有工作通常不得不将模型限制在一小部分预选的基因列表上。
3、 不同技术和实验室的单细胞转录数据在测序深度上存在差异,这妨碍了模型学习统一且有意义的细胞和基因表示。
针对这些问题,研究团队首先收集了超过5000万个涵盖各个器官、肿瘤和非肿瘤的大规模人类单细胞数据集用于训练。
与大型语言模型中的“词-向量”转换不同,scFoundation通过巧妙设计,将连续的基因表达值转化为向量。
针对单细胞数据的高稀疏性以及零值和非零值所包含信息量的差异,研究团队设计了一个非对称编码模块。
该模块在保持相同参数规模的情况下,所需的计算量仅为传统语言模型Transformer的3.4%。
此外,研究团队还提出了一种测序深度感知的预训练任务“read-depth-aware (RDA)”,能够对测序深度进行降采样,使得模型在预训练阶段在完成传统的掩膜恢复任务外,还能够由低质量细胞恢复高质量细胞的基因表达信息。

△scFoundation模型及下游应用场景
两种应用范式
scFoundation的应用范式主要包括开箱即用和微调两种:
从scFoundation得到表征,进一步利用下游方法分析。
训练scFoundation一层和针对各个任务的MLP头,进行标签预测。
在开箱即用范式上,受益于RDA预训练任务,将scFoundation应用于细胞测序深度增强任务,在不需要进一步微调的情况下达到了比现有训练方法相当甚至更好的效果。

此外,通过构建模型预测细胞对癌症药物干预的反应,对指导抗癌药物的设计及理解癌症的生物学机制至关重要。
基于scFoundation提取的Bulk基因表达数据,能够预测药物半最大抑制浓度IC50及单细胞水平的药物敏感性,显示出在几乎所有药物和癌症类型上预测效果均有显著提升。

而在细胞扰动预测任务中,通过提取单个细胞的基因表征来构建特定的基因共表达网络,scFoundation成功捕捉了不同条件下的细胞和基因表征,显著提高了单/双扰动预测的准确度。

此外,基因表征还可用于构建针对特定细胞类型的基因网络。研究团队在T、B和Monocyte细胞类型中识别出了特异的基因模块和转录因子。在微调应用方面,scFoundation在细胞类型标注任务中的效果远超传统方法。
研究人员还进行了丰富的消融实验,揭示了不同模块设计对性能的影响,相关模型细节已在NeurIPS 2024的xTrimoGene模型中发表。

综上所述,scFoundation模型为建立细胞预训练大模型的模型架构、训练框架,和下游示范应用体系都提供了新的思路和方法,为生物医学任务的学习提供了基础功能,拓展了单细胞领域基础模型的边界。
目前模型权重及代码已开源。同时为了减少计算负担,支持更多用户轻量使用,研究团队也提供了模型相应的API,用户可在线获取scFoundation模型表征,支持CLI、Python SDK和网页端调用。
论文链接https://www.nature.com/articles/s41592-024-02305-7https://papers.nips.cc/paper_files/paper/2023/file/db68f1c25678f72561ab7c97ce15d912-Paper-Conference.pdf代码权重开源:https://github.com/biomap-research/scFoundation https://aigp.biomap.com/models/1760957084760342530/1760957084772925441
— 完 —
人工智能产业链联盟高端社区

相关阅读
【碳中和】珍藏版!22个国内外“碳中和”相关报告合集!
【工业机器人】全球工业机器人详细产业链梳理!
【智能制造】智能制造50大产业链全景图
【智能工厂】智能工厂如何快速落地
【工业技术】航空制造推动新概念机器人发展(上)
【工业技术】航空制造推动新概念机器人发展(下)
【新基建+人工智能生态】全网最火“新基建”生态图谱—人工智能篇(含40个细分领域厂商)
【AI】一文读懂人脸识别技术
【AI】解析 | 人工智能发展及技术架构
【报告】中国人工智能厂商全景报告(附PDF下载)
【AI】(收藏)从 A-Z 全面盘点人工智能专业术语梳理!
【AI】计算机视觉入门大全:基础概念、运行原理、应用案例详解
【AI】一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别
【智能仓储】一文带你彻底搞懂智能仓储!
【深度学习】12张高清思维导图,总结深度学习
【神经网络】给初学者们讲解人工神经网络(ANN)
人工智能的基础--知识分类
【AI产业链】120图勾勒全球AI产业完整图谱!
【AI】一文读懂人工智能产业链
【AI】中国人脸识别产业链全景图!
【AI】史上最全的人工智能(AI)产业链地图!
【芯片】国产芯片大全:70个细分领域代表企业
人工智能产业链深度透析—基础层
人工智能产业链深度透析-技术层
人工智能全产业链深度透析--(综合)
人工智能产业链深度透析—产业应用医疗篇
朱松纯 | 人工智能的现状、任务、构架与统一(上)
朱松纯 | 人工智能的现状、任务、构架与统一(中)
朱松纯 | 人工智能的现状、任务、构架与统一(下)
【AI】美国国家人工智能研发战略规划2019
【智慧农业】2018中国农牧家禽行业智慧养殖白皮书
【智慧农业】2019年智慧农业市场调研及前景研究报告(附PDF下载)
【智能家居】我国智能锁产业现状及未来发展趋势分析
【知识图谱】详解知识图谱关键技术与应用、AI图谱技术在知乎的应用实践、如何构建多快好省的“知识图谱即服务”
荐:
【中国风动漫】《姜子牙》刷屏背后,藏着中国动画100年内幕
【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!
【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

声明
免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)
编辑:Zero




到顶部