早在 2013 年,就有报道称 FBI 有利用特殊的技术手段来监听麦克风。几周前,威斯康星大学麦迪逊分校又在一份调查报告中,揭示了静音麦克风是如何在视频会议期间被清楚收听到的。虽然结果有点让人感到惊讶,但其实耳机也可在特定情况下被当做麦克风来监听。
出于对隐私安全的关注,我们已见到一些突破性的技术。比如得益于新开发的一种算法,哥伦比亚大学研究人员声称可部分解决这方面的问题。
据悉,新算法主要聚焦两个方面。首先,它会将一个人的语音模糊和安静到接近耳语可听的水平,以避免被自动语音识别(ASR)AI 给破译。
其次,新算法还可预测即将说出的单词、并始终较 ASR 领先一步,所以新方法又被称作“预测性攻击”(Predicitive Attacks)。
研究配图 - 1:“神经语音伪装”可对 ASR 造成干扰
该校计算机科学助理教授 Carl Vondrick 简要解释了该技术的工作原理:
在阻止麦克风恶意监听这件事上,我们的算法有 80% 的成效,同时也是测试平台上最快、最准确的算法。
即使我们对流氓麦克风一无所知 —— 比如它的位置、甚至背后运行的计算机软件 —— 该方法依然能够奏效。
本质上,我们可以通过无线的方式来伪装一个人的声音,将其隐藏在这些监听系统之外、且不会对在室内会话的人们造成不便。
研究配图 - 2:预测攻击演示
研究的主要作者、Vondrick 的博士生 Mia Chiquier 进一步补充道:
我们的算法能够通过预测一个人接下来会说什么的特征来跟上进度,给它足够的时间来生成正确的耳语。
到目前为止,该方法已被证明适用于大多数英语词汇。后续我们计划将该算法推广到覆盖更多语种,最终让耳语听起来完全不可察觉。
研究配图 - 3:三个攻击实例
通过与其它用于攻击语音样本的方法进行比较 —— 包括统一噪声、离线投影梯度下降(PGD)和在线 PGD(实时)—— 可知该算法在预测未来 0.5 秒的讲述内容时表现最佳。
此外该算法针对标准 ASR 及其强大的对手展开了实测,虽然不见得很快就能派上实际用场,但感兴趣的朋友还是可以翻阅《实时神经语音伪装》这项基础研究的全文(PDF)。