能预测一千种疾病的AI,会改变医学的未来吗?


在人的一生中,健康状况始终处于动态变化之中,并且许多疾病之间也存在着复杂的关联,比如慢性病常常伴随其他健康问题一起出现。这些健康变化和疾病发生与人的遗传特征、生活习惯以及所处的社会环境都有关系。科学家们一直在努力寻找方法,希望能更早、更准确地预测疾病的发展趋势,不仅帮助个人保持健康,也为公共卫生决策提供依据。


人工智能正在从语言、图像的理解领域,逐步进入医学预测的核心地带。今年9月,《自然》杂志发表了一项由德国癌症研究中心、欧洲分子生物学实验室和哥本哈根大学等机构合作完成的研究,展示了一个名为Delphi-2M的人工智能模型。该系统基于生成式预训练变换模型(GPT)架构,能够根据个体的健康记录、生活习惯和既往病史,预测超过一千种疾病在未来数年甚至数十年内的发生风险。

发表在《自然》上可预测疾病的AI模型(图片来源:参考文献[1])



AI如何学习疾病的时间规律


传统上,医生在诊断时往往关注当前的症状或某一类疾病,但事实上,健康是一条不断变化的时间线。很多疾病并不是突然出现的,它们之间存在复杂的先后关系——比如肥胖可能增加糖尿病的风险,而糖尿病又会影响心血管健康。


研究团队开发的Delphi-2M模型,尝试让人工智能去学习这种疾病的时间规律。它的原型来自GPT语言模型,也就是支撑聊天机器人的那种人工智能。GPT能通过分析句子中词语的前后关系,预测下一个词;而Delphi-2M则把这种逻辑迁移到医学领域——根据一个人的病史、体检结果和生活习惯,去预测他未来最可能出现的疾病以及大致的时间。

健康轨迹示意图(图片来源:参考文献[1])



为了训练这个模型,科学家使用了英国生物样本库的大规模数据,涵盖约40万人从年轻到老年的诊疗记录。这些数据包括上千种疾病,从感冒、哮喘到糖尿病、癌症,还有个人的性别、体重、吸烟饮酒等信息。模型学习的目标,是找到不同疾病之间的时间顺序与联系。


研究结果显示,Delphi-2M不仅能预测常见疾病的风险,准确度与现有的临床评估工具相当,甚至在某些疾病上更高;它还可以发现疾病之间的隐性关系,比如代谢问题可能与神经系统疾病的发生有关。更重要的是,它能基于一个人的健康记录,模拟未来20年的疾病变化趋势,为早期干预和预防提供参考。



潜在价值与现实挑战



Delphi-2M的研究成果展示了人工智能在疾病预测领域的潜在价值。它不仅能识别个体层面的健康风险,还能在群体尺度上推算未来的疾病负担。


研究团队利用模型模拟不同体重指数、吸烟与饮酒水平人群的健康轨迹,结果显示这些生活方式因素与疾病风险的变化趋势高度一致,说明模型能够反映现实中的流行病学规律。这种能力使其有望成为公共卫生规划与资源配置的重要辅助工具。


在医学研究层面,Delphi-2M提供了新的分析维度。通过可解释人工智能方法,研究者能够追踪不同疾病之间的时间依赖关系。例如,模型揭示出恶性肿瘤在诊断后的数年内仍显著提高死亡率,而败血症或急性心肌梗死的风险则会在短期内逐步下降。这种时间分层的风险评估,有助于改进疾病监测和随访策略。


然而,研究团队也明确指出该模型目前仍处于科研探索阶段。首先,训练数据的代表性不足可能导致偏差。英国生物样本库的参与者以中老年白人群体为主,健康状况相对较好,模型在其他族群或社会经济群体中的适用性仍需验证。其次,模型的可解释性有限。虽然使用了可视化和因果权重分析方法,但其内部决策机制仍难以完全理解。最后,伦理与监管问题尚未解决。如何在保护隐私的同时利用健康预测结果,如何避免预测信息在保险或就业等场景中的误用,都是未来必须面对的关键议题。


总体来看,Delphi-2M展示了人工智能在医学预测与疾病建模中的前沿能力,但要真正进入临床与公共卫生实践,还需要在数据多样性、算法透明度与伦理监管方面建立更完善的体系。



结论



Delphi-2M的出现代表了人工智能在疾病预测领域的一次重要尝试。通过对数百万条健康数据的分析,它能够在个体和群体层面揭示疾病之间的时间规律和潜在联系。这种以全生命周期为视角的健康建模,为未来的精准预防、早期筛查和医疗资源规划提供了新的思路。


但研究者也强调,任何预测模型都不能取代临床判断。Delphi-2M目前仍需更多人群验证和长期随访数据来完善性能。在医疗体系真正采用此类技术之前,如何保证数据的公平性、透明性与安全性,是必须解决的问题。



参考文献:

[1] Shmatko, Artem, et al. "Learning the natural history of human disease with generative transformers." Nature (2025): 1-9.

[2] Zhu, Zhihong, et al. "Causal associations between risk factors and common diseases inferred from GWAS summary data." Nature communications 9.1 (2018): 224.

[3] Kraljevic, Zeljko, et al. "Large Language Models for Medical Forecasting--Foresight 2." arXiv preprint arXiv:2412.10848 (2024).



策划制作

作者丨张玮杰 中国科学院大学博士;杨超 中国科普作家协会

审核丨邵文亚 福建医科大学副教授

图文简介

人工智能正在从语言、图像的理解领域,逐步进入医学预测的核心地带