人民智造2- 从数据到智能:揭秘万亿参数大模型的锻造密码

各位观众朋友,大家好!我是来自腾讯机器学习平台的工程师姚军。

今天,我们将揭开“万亿参数大模型”这一AI领域“超级工程”的神秘面纱。

人工智能的突破性进展,离不开大模型扩展定律Scaling Laws的“暴力美学”——参数规模越大,训练数据越多,算力投入越大,智能涌现的可能性就越高。

但打造一个万亿参数的大模型,绝非易事。今天的分享将围绕三个核心问题展开:

第一,造大模型需要哪些“硬核条件”?——数据是燃料、算法是灵魂、算力是引擎,三者缺一不可。

第二,为什么机器学习平台是“幕后英雄”?——从数据到模型再到应用,它像一座超级工厂确保大模型的生产到应用到全流程精准运行。

第三,从零到万亿参数的完整流程是什么?——我们将拆解数据准备、训练优化、部署落地的技术链条。

接下来,让我们从“数据”这一基石开始,揭秘大模型的锻造密码!

如果把大模型比作火箭,数据就是它的燃料

如果把大模型比作火箭,数据就是它的燃料。但燃料的“质”与“量”直接决定模型能飞多高、多远。

规模上,训练一个万亿模型需要相当于全国图书馆总藏书量还多得多的语料数据,覆盖多语言、多领域、多学科。

质量上,原始数据在预处理过程中需经历“过五关斩六将”:去重、脱敏、版权过滤、有害信息清洗,数据工程如同像炼金术般对数据进行“提纯”。

多样性方面,我们正突破单一文本模态,融合图像、视频、传感器数据,让AI从“死读书”走向“观世界”。

同时数据方面的技术突破同样值得关注:传统标注数据成本极高,而预训练范式让模型从海量无标注数据中自驱学习;数据合成技术则像从“平行宇宙”搬运来了某些稀缺场景的数据,弥补自然数据的分布偏差。可以说,数据工程的革新,正在重塑AI学习知识的边界。

如果说数据赋予大模型“知识储备”,算法则决定了它如何思考

如果说数据赋予大模型“知识储备”,算法则决定了它如何思考,而算法设计需要与模型架构和工程优化紧密配合,近年来大模型取得的长足进步对三个方面的关键突破尤为依赖:

架构革新方面,Transformer结构如同神经网络的“乐高积木”,通过自注意力机制让AI建立全局认知,突破传统模型的视野局限;

训练算法上,反向传播与深度学习训练方法的结合,终于让深度神经网络学会了如何高效学习,让它在万亿次试错中快速收敛。

而分布式训练框架叠加多维并行策略等工程优化成果,则像指挥乐团演奏一个大型交响乐,协调千机万卡GPU计算单元高效协作,不能出丝毫的偏差。

这些创新,让神经网络从“感知”进化到“认知”,甚至涌现出逻辑推理能力。

当模型参数以指数级膨胀,算力就是托举智能的“擎天柱”

当模型参数以指数级膨胀,算力就是托举智能的“擎天柱”,是大模型火箭的动力引擎

硬件层面,相较于传统CPU,并行化计算加速硬件GPU,好比“汽车”升级成了“高铁”,让算力集群的吞吐能力得到大幅提升;专用高速网络则像构建“高铁网络”,让算力集群的通信带宽大幅提升。

集群设计更显匠心:通过拓扑优化将计算节点“编织”成高效网络,最大限度发挥算力集群规模化协作的并行计算威力。

但挑战依然严峻:根据大模型扩展定律Scaling Laws,硬件升级换代的摩尔定律已经无法满足大模型算力需求的爆炸性增长,我们正在探索模型算法创新和工程极致优化,试图跨越这场“算力马拉松”的极限。

机器学习平台就是融合数据、算法、算力锻造大模型的超级工厂

前面介绍了“造大模型的三要素”,机器学习平台就是融合这些要素锻造大模型的超级工厂。以我们Angel机器学习平台为例,它包含四大核心模块:

算力基建如是生产线上的各种设备,由千个万个计算加速节点通过高速网络连接而成;

工程底座则像操作系统,从资源分配到容错恢复,确保计算节点不眠不休,训练任务“不间断”,生产线上源源不断紧张有序的打造出构造大模型的零部件;

研发运维平台就是流水线,自动化打通生产服务全链路,而研发和运维人员就是生产线上训练有素的工人在自动化工具的支持下高效协作;

应用中台管理最后的产品服务交付环节——它让大模型的服务从生产线走进各种应用场景,通过服务监控、安全防护,确保智能服务7×24小时稳定输出。

正是这个“幕后英雄”,让数据快速转化成大模型,再让大模型输出源源不断的的智能,赋能千行百业,走进千家万户。

大模型从数据到智能的诞生之路

数据工程阶段,工程师需要像地质勘探队一样,从原始数据的大山中挖掘“数据金矿”,同时也通过合成技术合成某些“稀有金属”填补数据断层;

训练阶段则是技术与艺术的交响融合,在机器学习平台的支撑下,施展如同炼金术士般的“魔法”——“召唤”各种训练算法和参数调节“秘技”,通过预训练让模型“博览群书”“学”知识,微调阶段让模型进行各种专项“特训”,强化学习引导模型学会如何“思考”,最后模型不仅仅要“学”到知识和学会“思考”,还要“学”会“做人”,对齐人类赋予的“价值观”;

部署阶段需面向应用场景需求,通过云计算技术将模型封装成标准化服务,配合实时监控应对高并发场景。

这三大步骤环环相扣,既是一场技术攻坚战,也是一场充满艺术创造的探索,期间也许充满许多不确定性,但是随着大模型研究的突飞猛进和机器学习平台技术的日趋完善,我们已经能驾驭这个充满挑战的过程。人工智能的每一步突破都是对碳基智能本质的逼近,这场革命不仅是技术的迭代,更是人类智慧的延伸与升华。让我们带着对未来的期待,共同揭开碳基与硅基的共舞的全新智能时代!

本文为科普中国·创作培育计划扶持作品

作者:人民日报

审核:贾宁 大连东软信息学院 教授

出品:中国科协科普部

监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

来源: 科普中国创作培育计划


图文简介

本期节目由腾讯机器学习平台的专家工程师姚军,以人工智能的认知进化为核心,系统梳理了AI从理论萌芽到通用大模型的发展历程。(出品:科普中国创作培育计划)