梦境光怪陆离,探索梦境的机理是人类长久以来的课题。从弗洛伊德的潜意识解析,到现代神经科学对REM睡眠的脑波追踪,我们总在追问:那些奇异的影像从何而来?而或许你不知道的是,AI也开始做梦了。2015年,谷歌的一位工程师意外打开了这扇窗,让全世界第一次看到了神经网络眼中那个充满幻觉的奇异世界。
图片来源:Wikipedia
现代科学认为,人脑做梦主要是因为睡眠的快速眼动期里,大脑的视觉皮层和关联区域高度活跃,脑干的随机电化学信号转化为生动、叙事般的影像序列。那么AI之所以能做梦,正是因为其核心机制由人脑视觉皮层的设计原型所启发。我们通过眼睛获取到外界信息后,大脑的处理过程就像剥洋葱,一层一层提炼信息:简单细胞先捕捉边缘信息,避免大脑被海量像素淹没。这些信号再层层上行,由更复杂的细胞组装这些边缘成基本形状,最终抵达高层细胞,把形状融成完整对象。那么既然人脑能通过这种分层抽象高效处理视觉信息,那么如果让人工神经网络能够模拟这个层级过程,岂不是就能实现机器视觉了?于是卷积神经网络(CNN)就诞生了。
既然我们了解了CNN在识别图像时的原理,就不难理解它为什么会做梦了。平时它处理的信息是自下而上流动的:也就是前文提到的从像素到边缘,从边缘到形状,从形状到物体。那么让它做梦,就是信息的反向流动,这就是深度梦境(DeepDream)的核心原理。
如果训练了一个能识别狗的神经网络。当它看到一张云朵的照片时,某些神经元可能会微弱地激活,因为云朵的某个边缘曲线恰好和狗耳朵的特征有那么一点相似。接着,算法会计算网络某一层神经元的激活强度,然后通过梯度上升来修改输入图像,也就是让这些神经元激活得更强烈。这个过程不断迭代更新:神经元越激活,图像就越被修改成能激活这些神经元的样子;图像越修改,神经元就越兴奋。这形成了一个正反馈循环——云朵里那一丝狗耳朵的影子被放大,然后是狗的眼睛,接着整只狗的轮廓都浮现出来了。
图片来源:Wikipedia
更奇妙的是,如果网络的不同层级来进入这个梦境,会得到完全不同的梦境效果。浅层神经元只识别简单的边缘和纹理,所以反向激活会让图像布满波纹、条纹、几何图案,像是迷幻的万花筒。而深层神经元识别的是完整物体,所以它们的梦境里到处都是眼睛、狗头、鸟、建筑,也就是那些网络在训练数据中见过无数次的东西。
这就解释了为什么DeepDream梦到的图像如此诡异:一张名画长出无数狗脸,一片树叶会睁开眼睛凝视你,建筑物的窗户会变成动物的轮廓。神经网络在用它所学到的视觉词汇,强行解读和重构这个世界。它看到的不是真实存在的东西,而是它想看到、被训练去寻找的东西。
这和人类做梦何其相似呢,我们的梦境也充满了日常经验的碎片重组,潜意识将白天的记忆、情感打碎重塑成超现实的叙事。大脑的视觉皮层在REM睡眠中自发激活时,它也在用已知的视觉概念去解读随机的神经信号,于是陌生人的脸拼贴着熟人的特征,不存在的场景融合着多个真实地点的元素。
AI的梦境,本质上是过拟合和特征幻觉的艺术化展现。感知或许从来不是对现实的被动记录,而是基于过往经验的主动建构。我们看到的世界,永远都带着我们已知的烙印。
参考文献
[1] Wikipedia. DeepDream. https://en.wikipedia.org/wiki/DeepDream (Accessed: 2025-10-10).
作者:蔡文垂 中国科学院大学博士研究生 中国光学学会会员
审核:于乃功 北京工业大学教授 中国人工智能学会理事
图文简介