人民智造2- 多模态数据智能压缩：从“一图胜千言”到“一图生千言”

大家好，我是贾川民，来自北京大学王选计算机研究所，目前是研究员和博士生导师。我主要的研究内容是多媒体信息处理，还有智能媒体计算以及一些系统性的研究工作。

视觉信息传递面临哪些主要挑战，为什么需要数据压缩技术？

我们人类是一个多维度感官动物，这其中最重要的一个感官的方式，就是视觉的信息，视觉信息占据了人类全部接受信息的80%以上，视觉信息从一个地方传递给千家万户，实现所谓“一图胜千言”，就成了过去一百年中科学家们一直努力的焦点。传递这些海量的视觉数据时面临的首要挑战就是数据量太大。因此，数据压缩技术应运而生。它是广播电视、网络视听等应用的基石。

举个例子，我们国家每隔一段时间就要为天宫一号空间补充物资，如果这些要运输的物资不进行打包整理，那么运输用的飞船很容易就被各种物品塞满。因此我们在新闻中经常看到，飞船运输的物品都是经过非常精美的打包、整合以及封装，形成了一个个外观统一的空间站“快递箱”。这其实就和数据压缩技术的思路不谋而合。需要压缩的数据都是杂乱无章的，我们通过数据处理方法对它们进行打包、整合，就像空间站用的跑步机是可折叠的，说明物品所占用的空间是可以压缩的，视频数据也是这样，我们可以通过算法，对海量的视频数据所占用的存储空间进行折叠、翻转等操作，从而减少它们所消耗的存储空间。

物资打包之后，经由飞船运输到空间站。同理，压缩后的视频数据包也能被网络传输给千家万户的各类终端。因此我们经常在新闻中看到，空间站的航天员在使用的时候，会一个一个的拆快递箱。类似的，用户也会把压缩过的视频数据包进行拆封，专业属于叫做解码。这样就实现了视频数据的压缩-传输-呈现。

而智能化的数据压缩技术还有更远大的目标，我们希望让单幅图像蕴含和传递远超每一个像素本身的信息量，甚至能“衍生”出更丰富的内容。

如何实现从“一图胜千言”到“一图生千言”

那什么如何实现这个目标呢？这就需要“多模态数据智能压缩”技术了，它不仅仅是缩小文件体积（传统压缩），而是利用人工智能的模型来理解我们所需要传递的视频或者视觉的内容，结合文字、文本、语音等其他模态信息，实现超高效率、高保真、且富含语义的压缩表示。我们在打包传输的时候，是把这些多模态的信息进行了传递。而在用户侧，通过功能强大的人工智能模型，把这些高度抽象的数据还原成栩栩如生的画面，带来身临其境的体验。

这样，就能解决海量视觉数据（图片/视频）存储、传输的瓶颈；还能够为我们常见的人工智能信息处理提供高效、富含语义的“基石”数据，通过多模态数据智能压缩技术，就实现了对原始视频、图像等内容的编辑和处理，同时，还可以根据用户的网络情况调整视频质量，网络条件不好时，提供相对低清晰度内容，反之，传递高清晰度的内容。

多模态主句智能压缩技术如何实现其美好愿景

主要是把一个一个像素单元经过矩阵计算变成高度复杂的特征信息，在数学上，它们就是一组向量，我们可以把它叫做特征向量；在关联不同模态数据，比如文本、语音、视频的特征信息时，利用跨模态对齐技术，在向量表示空间对这几类信息进行折叠、翻转等操作，去除不同模态之间在向量空间当中相似的内容，保留它们之间不太相似的内容。这样就可以实现跨模态数据的一个高度语义化的表示。

它的应用场景包括以下几部分，在带宽受限下传输高质量视频，比如海量视觉数据存储，大幅降低数据中心存储成本；高效智能分析，压缩后的特征数据直接用于快速人工智能、内容理解、安防，以及内容创作以及编辑等。输入压缩特征或提示，自动生成描述视频和图象内容的数据，甚至是生成图像和视频本身。

在未来，可以通过这样的方式，实现接近人类理解的语义无损压缩、人机协作创作。比如在视频会议中不再需要摄像头、只通过传递语音就实现高质量的人物和场景的三维重现。

本文为科普中国·创作培育计划扶持作品

作者：人民日报

审核：贾宁大连东软信息学院教授

出品：中国科协科普部

监制：中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

来源: 科普中国创作培育计划