大家好,我是来自中国传媒大学,媒体融合与传播国家重点实验室的程皓楠,上一集我们讨论了音频生成技术的原理与应用,以及为影音创作带来了新的机遇。
但随之而来的是安全相关的威胁与挑战。随着AI音频生成技术的发展,伪造音频的现象也越来越多。例如,电信诈骗分子引入AI音频生成技术,合成公众人物或者亲友的声音,进行冒名电话诈骗,目前这类新型诈骗案件涉及金额以及达到上亿元,使得防范工作面临着前所未有的挑战。
对于大众来说,如何分辨真假音频呢?
首先,我们可以注意音频的细节。真实的音频往往具有丰富的环境音效和自然的音色变化,而伪造的音频在音色上存在不自然的情况,例如声音清晰度很低,像隔着容器发声,或者存在电流音。另外,现在的音频合成技术在方言模拟方面还存在明显不足,当我们接到疑似诈骗的亲友电话的时候,也可以通过方言沟通,来验证电话对面的人员身份。
但是我们也做过大量的实验,选取了上万条真实录制和AI合成的语音让测试人员进行分辨,结果显示目前人耳主观分辨准确率大概在70%,也就是会有30%的音频是无法准确判断的。这就需要机器具备有“灵敏的耳朵”,通过AI音频检测技术来挖掘音频中的细微差异,来守护声音的真相。
机器具体是如何分辨的呢?
真实的音频在录制过程中会受到环境噪声、设备特性等因素的影响,包含许多独特的特征,比如声波的细微波动、频率响应的特点等。而AI合成的音频,无论是通过语音合成还是音效编辑,都会在这些特征上与真实音频存在差异。
AI音频检测系统会学习大量的真实音频和伪造音频数据,建立起鉴别模型。例如我们在说话的过程中,会因为停顿、换气有一些静音片段,真实语音与合成语音在这些静音片段中的频谱差异很大,是机器用来鉴别真假语音的一个十分有效的线索。
现在也已经陆续有相关检测平台和工具,比如我们推出的白杨智鉴平台,音频的检测准确率已经可以达到90%以上,可以有效帮助公众鉴别声音信息的真实性。
AI音频鉴别技术核心挑战是什么?
对于音频鉴别技术,它的核心挑战在于一个泛化性问题。因为AI生成技术每天都在层出不穷的产生新技术。我们每次鉴别的时候,如果只知道已知的生成手段,它的生成模型是什么样子的,那我们对于一些未知的生成手段,就很难进行合理有效的鉴别。针对这样的挑战,目前我们可以采用什么样的方法和策略呢?
那就是我们聚焦于真实音频,我们不再去挖掘未知的手段存在什么样的特征,而是将目光聚焦在真实语音的共性特征上,把真实语音的特征进行聚类。当我们拿到一段未知的音频时,我们首先会把这段音频的特征和我们对于真实语音的特征聚类进行比对。当它和真实语音特征的差异非常大时,那我们就会认为这段音频和真实语音是存在显著差异的。你就可以给它判定具有伪造的嫌疑。
AI音频生成技术迅猛发展,如何确保其创新与监管同步推进?
在当下人工智能高速发展的时代,我们应该以积极的态度看待AI音频技术的发展,既要充分利用生成技术带来的机遇,推动文化相关产业的创新发展;又要重视检测技术的研究和应用,建立健全相关的法律法规和技术标准,保障声音信息的真实性和安全性,让AI音频技术真正造福于人类。
本文为科普中国·创作培育计划扶持作品
作者:人民日报
审核:贾宁 大连东软信息学院 教授
出品:中国科协科普部
监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司
来源: 科普中国创作培育计划
图文简介