人民智造2- 沉浸式媒体技术，视觉感知计算的交响 - 科普新疆

大家好，我是贾川民，来自北京大学王选计算机研究所，我是研究员和博士生导师。我主要的研究内容是多媒体智能计算，智能数据的压缩处理，以及一些系统化的工作。

什么是“沉浸式媒体”

“沉浸式媒体”究竟是什么，是旨在通过技术手段（VR/AR/MR/360视频/光场/全息等）模糊虚拟与现实的界限，为用户提供身临其境、多感官的体验，这里的多感官主要是视觉，我们在沉浸媒体计算当中，也包含听觉、触觉等内容，它最大的特点就是用户能够“身临其境”的感受这些沉浸式的内容，同时用户很难去分辨出，看到的内容究竟是真实的还是虚拟创建出来的。

举个例子，沉浸式媒体就像“交响乐团”组成。乐团的“指挥”和“乐谱识别”就是计算机视觉技术，每个乐团的指挥就是整个乐团的“大脑”，那么计算机视觉技术就是沉浸式媒体的核心技术。它负责把所见变为可演奏的音符；乐团里的“演奏家”，各个乐器的表演艺术家，就由不同领域的生成式人工智能模型来负责，演绎出华彩篇章；在沉浸式媒体计算里面，我们还会使用手势识别、语音交互、触觉反馈、空间音频这些技术，它们能够为用户提供自然地与虚拟世界互动；VR头盔、AR眼镜、全息投影、高分辨率大屏是表演的“舞台”。

如何制作“沉浸式媒体”内容

那么如何制作这些内容呢？需要通过硬件集成、软件开发平台、核心技术算法优化，最后是内容创作，在目前的内容创作领域，大家通常都会采用低成本的沉浸式内容创作工具链，来整合相关的内容。

这样，就能够打破空间限制的进行虚拟旅游、实现真正的“人在画中游”，例如，走进博物馆，我们可以通过头戴式的VR设备实现360度观赏古代的山水画卷，比如《千里江山图》，比如《清明上河图》，这样非常巨幅的画卷，我们并不需要人走进博物馆当中就可以体验，在（VR）头盔当中，我们观察到的内容，还可以通过眼动追踪模块，抓取到不同用户感兴趣的区域，目之所及便是画卷内容的讲解，再通过AIGC技术和2D转3D技术把画卷中的花鸟鱼虫，人物形象进行立体化的呈现，让静态的画卷呈现栩栩如生的姿态；

我们还可以从头盔的约束中解放出来，走进沉浸式视觉体验空间。这个空间和教室一样大小，但四周和地面全都是显示屏幕，置身于此仿佛消除了地理空间的约束，通过全景映射和智能生成，这些显示屏幕能够将远处的风景，一比一的在空间中还原。而空间智能计算让体验者能够在这个空间中感受到飞跃祖国大好河山的新奇体验。

沉浸式媒体技术还能打破时间约束、实现与文物的古今对话和古迹活化展示，通过数字孪生、三维重建，静态的文物便可以化身可视化的三维模型，结合手势识别、姿态估计和驱动交互，便可以穿越古今在虚拟空间中进行文物鉴赏，学习文物背后的历史故事，通过虚拟数字人的互动讲解，了解文物历经千年的流转。这些形式，都是我们目前通过沉浸式媒体计算技术来实现的体验，这些体验极大地丰富了我们目前对于文物、对于文化、对于科技这三者进行融合的场景。以上就是关于沉浸式媒体计算相关的介绍。

本文为科普中国·创作培育计划扶持作品

作者：人民日报

审核：贾宁大连东软信息学院教授

出品：中国科协科普部

监制：中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

来源: 科普中国创作培育计划