(资料图片仅供参考)
编程客栈() 8月16日 消息:虚拟伪造视频的出现引发了人们对视觉内容可信度的担忧。利用深度学习和面部标志的各种算法在解决这一挑战上已经取得了令人着迷的成果。检测伪造视频的主要挑战在于具有说服力的 Deepfake 技术可能引起的潜在危害,这种技术可以用于欺骗、证据篡改、侵犯隐私和传播错误信息。检测这些视频需要结合分析面部动作、纹理和时态一致性等技术,通常利用卷积神经网络(CNN)等机器学习方法。
论文地址:https://dl.acm.org/doi/pdf/10.1145/3612928
最近的研究聚焦于使用各种方法检测 Deepfake。有些将 Deepfake 视为异常,寻找深度、背景和局部 - 全局信息的不一致性。还有一些将 Deepfake 视为一种独特的模式,利用深度学习技术分析面部特征和颜色空间。这些努力有助于区分真实内容和 Deepfake 视频。
在这个背景下,最近发表了一篇新论文,提出了一种新的解决方案,涉及使用头部姿势估计(HPE)作为区分真实视频和 Deepfake编程的唯一标识符。作者建议通过分析视频中个体的头部姿势来帮助区分真实内容和 Deepfake 内容。这种方法着眼于头部方向的角度,以便发现编程视频操作中引入的不一致性。该研究旨在评估使用各种方法和数据集的有效性,为改进 Deepfake 检测策略做出贡献。
所提出的方法的主要思想是将头部姿势估计作为检测 Deepfake 视频的特征之一。
头部姿势估计涉及确定图像或视频中人物的头部位置和方向。这些信息可用于识别 Deepfake 操作引入的差异,因为即使是头部对齐的微小变化也很难准确复制。该研究分析了三种 HPE 方法,并在流行的 FF++ Deepfake 数据集上进行了水平和垂直分析。目标是找到最有效的 Deepfake 检测方法。
作者进行了实验,利用头部姿势模式来检测 Deepfake 视频。他们使用了包括真实和操作视频的 “FaceForensics++” 数据集。他们采用 KNN 和动态时间规整(DTW)对齐序列,并利用深度学习模型(1D 卷积和 GRU)捕捉时间模式。这些方法旨在基于头部姿势将视频分类为真实或伪造。最佳结果来自于基于 HPE 的方法,使用 KNN-DTW 的 FSA-Net。该方法在多个最先进的方法上表现出色,显示出在数据集的不同子集之间的稳定性lyEKBuXC和可迁移性。研究表明,头部姿势模式对于 Deepfake 检测非常有效,特别是在像jsFaceSwap 这样不太逼真的攻击中。