业界动态
Nature Methods | GPT-4领衔:大语言模型(LLMs)推动基因功能探索新高度
2024-12-14 05:08

引言

近年来,随着组学技术(omics technologies)的迅猛发展,研究人员能够以前所未有的深度和广度揭示基因、蛋白质以及代谢物在不同生物学过程中的作用。然而,这些高通量技术所产生的大量数据也带来了前所未有的分析挑战。如何从这些复杂数据中识别出具有生物学意义的基因集功能,成为现代基因组学研究的重要课题之一。
传统的基因功能富集分析(functional enrichment analysis)是解读基因集的主流方法,依赖于如Gene ontology (GO)、KEGG和Reactome等人工整理的数据库。这些数据库为基因的生物学功能分类提供了重要依据,但其局限性也日益显现。首先,这些数据库往往不完整,对新发现的基因或功能的覆盖不足;其次,对于尚未深入研究的基因簇,即使统计显著性结果明显,实际生物学关联仍可能不强。在这种背景下,研究人员需要借助文献和其他数据集,通过费时费力的方式推断基因集的潜在功能。
最近,生成式人工智能(Generative AI)的兴起为基因功能分析带来了全新的解决方案。大语言模型(Large Language Models, LLMs)作为生成式人工智能的核心技术,具备从庞大文献数据中学习复杂模式的能力,能够生成具有逻辑性的文本。研究者们已经开始探索利用LLMs提取基因组学数据中隐藏的信息,生成可能的功能假设,并验证其合理性。
11月28日Nature Methods的研究报道“evaluation of large language models for discovery of gene set function”,首次系统性评估了五种前沿LLMs(包括GPT-4、Gemini Pro和Mixtral等)在基因功能发现中的表现。通过两项任务:文献整理基因功能的能力及组学数据中基因簇功能的探索,研究验证了LLMs在生物学功能分析中的潜力,并指出了其局限性。研究发现,LLMs不仅能够提供与现有数据库一致的基因功能描述,还在某些情况下提出了更广泛且合理的生物学解释。这一发现为LLMs在基因组学中的应用开辟了新的可能性,也为未来的智能化科学研究奠定了基础。

为了探讨大语言模型(Large Language Models, LLMs)在基因集功能发现中的潜力,该研究设计了一套系统化的评估流程。研究选取了五种代表性LLMs,包括GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct和Llama2 70b,旨在比较它们在基因功能命名与分析中的表现。研究设计了两项核心任务:


任务一:文献整理基因功能的复现能力

研究从GO数据库中随机抽取了1000个基因集,覆盖广泛的生物学过程(Biological Process, GO-BP)。通过语义相似性(semantic similarity)指标,研究测试了五种LLMs(GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct、Llama2 70b)能否生成与GO命名高度匹配的基因功能描述。模型通过精心设计的提示(prompts)生成分析报告,包括基因功能描述、支持性文本和自信度评分(confidence score)。这些评分提供了模型对自身答案可信度的量化,帮助研究人员判断结果的可靠性。


任务二:组学数据中基因簇功能的探索能力

在第二项任务中,研究聚焦于实际生物学数据中的基因簇,包括药物处理(126个基因簇)、病毒感染(48个基因簇)和癌症蛋白互作(126个基因簇)等,覆盖从转录组到蛋白质组的广泛领域。每个基因簇都被输入LLMs以生成功能描述,同时与传统的功能富集分析工具(如g:Profiler)进行比较。研究还引入了基因集特异性(specificity)指标,用于评估功能描述与基因簇之间的覆盖程度。

(a) 提示设计与功能生成流程
图中左侧的框架说明了研究所用的 LLM 提示(prompt)设计,强调提示内容对生成结果的重要性。提示包括系统内容、详细的推理链条指令,以及一个示例基因集查询。研究通过在提示的“用户输入字段”中插入具体的基因列表,让模型生成三个核心输出:
功能名称:对基因集功能的简洁描述;
支持性分析:模型生成的功能注释的详细解析;
自信度评分(confidence score):模型对自身输出的信心评估。
右侧的流程图清晰展示了这一数据处理和分析生成的过程。
(b) LLMs 与 Gene ontology (GO) 命名的对比
展示了任务 1 的评估结果。研究比较了五种 LLM(GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct 和 Llama2 70b)生成的基因功能名称与 GO 数据库中人工注释名称的匹配程度。GPT-4 的表现最为突出,显示其在功能恢复任务中优于其他模型。
(c) 组学数据基因集功能的探索
任务 2 的结果展示了 GPT-4 在处理真实组学数据中的表现:模型根据不同来源(如药物处理、病毒感染、癌症蛋白互作)的基因集生成功能描述。GPT-4 在功能分析的创新性和准确性评分上表现优异。

基因功能的复现能力
在复现 GO 基因功能任务中,GPT-4 展现了显著优势。其生成的功能描述在 73% 的情况下与 GO 标准命名高度相似,并在 60% 的情况下达到语义相似性得分的 95 百分位以上。这表明 GPT-4 不仅能够有效学习已有数据,还可以生成高度贴合的功能描述。例如,对于 GO 术语“DNA 损伤反应和修复”,GPT-4 的输出“DNA 损伤反应和修复”得到了 0.54 的高语义相似性评分,超过了 99% 的 GO 数据库其他条目。


GPT-4的功能描述更具特异性
在任务二的基因簇分析中,GPT-4生成的功能描述比传统工具更具特异性。例如,在一个涉及癌症蛋白互作的基因簇中,GPT-4提出了“Cullin-RING泛素连接酶(CRL)复合物的调控”作为功能描述。这一描述覆盖了16个基因簇成员中的多数,并结合文献支持了其对蛋白质降解和细胞稳态的作用。相比之下,传统工具虽然能够生成更通用的描述,但缺乏对基因簇中特定基因的细化解释。

LLMs能够有效评估功能描述的可信度
GPT-4引入了自信度评分机制,能够通过分析基因间的功能一致性评估命名的可靠性。在面对“随机基因集”或“掺杂基因集”时,GPT-4在87%的情况下拒绝生成功能描述,表明其在区分无关基因方面具有显著优势。这种保守的策略使得GPT-4的输出更加可信。

分析文本支持性强,幻觉问题可控
GPT-4生成的分析文本在大多数情况下是可验证的。在研究中,403条分析语句中有88%被验证为完全准确。尽管仍有部分“幻觉”(如错误分类或推测性陈述),但通过结合文献引用,这些问题得到了较大程度的缓解。此外,研究开发的自动化引文系统为每一条核心结论提供了文献支持,进一步增强了输出的可信度。

基因组学研究的辅助工具
大语言模型(Large Language Models, LLMs)在该研究中的表现表明,这类生成式人工智能工具在基因功能分析中具有巨大的潜力。通过两项核心任务的评估,研究验证了 LLMs 不仅能够从文献和已有数据中提取功能信息,还可以生成具有科学依据的新功能假设。特别是 GPT-4,它在功能描述的准确性、特异性和上下文关联性上表现出色,为传统功能富集分析工具提供了一种有力的补充。
然而,LLMs 作为基因功能分析的工具,当前仍处于辅助地位。尽管其在基因簇功能命名和分析方面表现优异,但其能力也有显著的局限性。例如,在处理无意义的随机基因集时,GPT-4 的“自信度拒绝”机制虽显示了较高的保守性,但仍有部分输出存在“幻觉”(hallucination)问题,生成了看似合理但无法验证的内容。这表明,在实际应用中,研究人员需要对其生成的结果进行仔细审查,确保研究的科学严谨性。

LLMs 的优势:从被动工具到主动发现
该研究的一项重要发现是,LLMs 不仅能够匹配已有的基因功能注释,还能在一定程度上提出新的生物学假设。例如,GPT-4 对基因簇功能的描述经常结合文献,揭示了特定基因在复杂生物学网络中的作用。例如,在分析涉及 Cullin-RING 泛素连接酶复合物(CRL)的基因簇时,GPT-4 不仅捕捉了这一经典功能,还结合更多基因信息,提出了更广泛的潜在调控机制。这样的功能扩展为研究人员提供了额外的研究方向。
相比之下,传统功能富集分析工具(如 g:Profiler)更多地依赖统计显著性,这种方法虽然可以快速筛选潜在功能,但容易生成过于宽泛的注释,缺乏对具体基因簇特性的细致分析。在这一点上,LLMs 的文本生成能力能够为研究人员提供更丰富的上下文信息,使分析更加全面和有深度。

LLMs 的局限性:从“幻觉”到实际应用的挑战
尽管 LLMs 展现了巨大的潜力,其输出的可靠性仍然是科学研究中的重要挑战。该研究发现,在生成的分析文本中,有 12% 的陈述无法被验证。这些问题主要表现为两种类型:一是功能分类错误,例如将某些基因归入了不相关的生物过程;二是未经验证的推测性陈述,如将某些基因与尚未明确的分子机制联系起来
此外,LLMs 的输出仍然受到提示(prompt)的影响。研究表明,优化提示内容可以显著提升模型的输出质量。因此,未来的研究需要系统化地设计和优化提示策略,结合具体的实验背景,确保生成结果的准确性和可解释性。
另一个限制是 LLMs 对动态和最新数据的整合能力不足。目前,LLMs 的训练数据主要来自于历史文献和已有知识,这使得它在面对新的实验结果或尚未广泛研究的领域时表现有限。为了克服这一问题,可以结合动态更新的数据库和实时文献检索机制,使 LLMs 能够更好地适应快速变化的科学环境。

综上,该研究通过系统评估五种大语言模型(LLMs),首次明确展示了它们在基因功能分析中的潜力和局限性。不仅验证了 LLMs 在处理生物学数据时的精准性,还揭示了它们的创新能力,尤其是在尚未被传统数据库注释的基因簇功能发现中,体现出更高的特异性和上下文相关性。该研究也突破了现有基因功能分析工具的局限。LLMs 的引入为这一领域提供了一种创新性解决方案,能够结合文献和逻辑推理生成更细致、可靠的功能假设。这不仅帮助研究人员更高效地挖掘数据价值,还为智能化科学研究开辟了新途径。



参考文献


Hu, M., Alkhairy, S., Lee, I. et al. evaluation of large language models for discovery of gene set function. Nat Methods (2024). https://doi.org/10.1038/s41592-024-02525-x



责编|探索君
排版|探索君
转载请注明来源于【生物探索】
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!

End




往期精选

围观

热文

热文

热文


热文

    以上就是本篇文章【Nature Methods | GPT-4领衔:大语言模型(LLMs)推动基因功能探索新高度】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/7912.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
盘点2024西安荣耀时刻!“西”引力爆表!
从传统文化的深厚积淀到旅游行业的蓬勃发展从非遗艺术的薪火相传到现代潮流的创新融合……今天,和文旅君一起回顾2024年古都西安
惠山街道2024年工作总结和2025年工作思路
2024年工作回顾2024年惠山街道始终坚持以习近平新时代中国特色社会主义思想为指导,认真落实区委、区政府决策部署,坚持稳中求进
天气|明日“小寒”!最冷“三九”就要来!
今日天气实况今日迎来2025年的首个双休日天气状况还不错天空晴朗,阳光温暖,风力微弱15时全市各区气温在7℃左右明天迎来小寒节
枝江市2025年“十大民生项目”公布!
枝江市第七届人民代表大会第五次会议于2025年1月10日票决产生了枝江市2025年度重大民生实事项目一起来看看↓↓↓一、枝江市枫杨
原来是这样 | 又上热搜!最近很火的“煮苹果水”,到底怎么喝更有用?
鄠邑区是中国科协命名的“全国科普示范区”,为进一步弘扬科学精神、普及科学知识、传播科学思想,鄠邑区科学技术协会联合鄠邑区
惊掉下巴!他俩在一起了???
新发色迎新年 2025鸿运当头拉满仪式感从头开始换个气场NOUGAT ,欧美名媛凯特王妃最爱的纯有机老牌洗护自然原生植萃护不伤头皮、
第一批鸡娃英语的妈妈,都后悔了……
虽然科大大同事们都说不卷,但又悄咪咪卷(啪啪打脸中…)的家长,2年级用上倾听者不算晚!说真的,有了它,吼孩子都少了!产品
发改委:推进户用光伏发展,助力农民拓宽增收新路径
中国产品流通经纪人协会供销合作行业标准《农产品食品供应商信用评价规范》参编单位征集函中国农产品流通经纪人协会供销合作行业
泉州百度爱采购运营介绍
百度爱采购入驻条件有哪些:商家需持有工商行政管理局颁发的营业执照,并且执照在6个月有效期内;厂家商品真实在营且符合国家相
抖音feed是什么 feed广告投放流程
feed是什么?feed流(又称信息流)它是穿插在App内容中的广告,具有原生沉浸式体验,支持多种展现形式。feed可以进行线索收集,