隐拓智安王丙坤：如何用AI识别AI ——AI生成内容安全性检测 | 嘉程创业流水席209席精彩回顾

03.28.2024 | 嘉程资本：创新者的第一笔钱 | 嘉程创业流水席

识别内容的真实性成为AI发展和应用中必须要解决的一个问题，主要有两种方法：被动检测和主动检测。

近日，嘉程创业流水席第209席【探讨2024 AI多模态领域的最新趋势和前沿动态】，邀请了隐拓智安CTO王丙坤分享，主题是《Sora加速思考，如何用AI识别AI》。

以下是正文内容：

我围绕一个主题：“用AI识别AI”，做个简单分享。

从安全视角看，用AI识别AI主要包含两类问题。首先是内容真实性的识别，即确定文本、语音、图像、视频等媒体内容是否为AI生成的；其次是AI生成内容的安全性识别，涉及AI生成内容是否合规、安全以及是否含有暴力元素。

我们公司一直在做这两方面的工作，在第二方面已经有很成熟的产品，今天我重点介绍第一个工作——内容真实性的识别。

内容真实性的识别主要分为两类方法：主动检测和被动检测。主动检测通过在AI生成的内容中添加水印，利用水印来区分真实内容与AI生成内容，这种方法的优势在于能够进行检测并溯源取证。而被动检测则是目前广泛使用的方法，它通过寻找真实内容与AI生成内容之间的差异来进行区分。然而，被动检测的泛化性较弱。

AI迅速发展让内容真实性成为焦点

首先，AIGC让人类对内容的真实性产生了焦虑，而Sora的出现又加剧了这一现象，如何识别内容的真实性成为AI发展必须面对的问题。识别AI的真实性主要有两类方法，一类是被动测试，一类是主动测试。

AI技术在内容生成方面的应用涵盖了文本、图像、音频和视频四大类媒体。AI文本生成技术，虽然为人类带来便利，但也可能产生虚假信息，如在网络上广泛传播的虚假火车撞人事件，虚假信息的传播会导致各种安全风险和不良影响。当前，不少学生和学者利用AIGC或ChatGPT完成作业和学术论文，这引发了学术不端的问题。AI文本生成受训练语料和模型输出控制，以ChatGPT为例，其生成内容可能带有西方意识形态色彩。在国外，已有案例显示AI生成内容被用于影响舆论和操控选举。

AI语音生成技术的快速发展使得语音克隆效果逼真，难以辨认真伪。例如，YouTube上有视频通过语音克隆技术模仿马斯克和乔布斯的声音。导航软件如高德和谷歌使用合成语音技术提供语音导航服务。自2023年起，视频网站上出现了许多AI合成的名人克隆语音，存在造假和侵权的风险。AI图像生成技术的滥用可能带来严重后果，如2023年5月伪造的五角大楼爆炸图片在网络上迅速传播，引发社会恐慌。今年2月，一家香港公司因AI变脸技术冒充CFO而被骗2亿。

Sora的出现在视频生成领域是一项开拓性工作。它通过输入简单提示词即可生成逼真短视频，对于非专业人士而言，非专业人士一般情况下通常难以辨别视频的真伪，难以区分视频是AI生成还是摄像机拍摄的。

当然Sora生成视频并不是天衣无缝，例如，一个跑步视频中的人物可能会出现倒着跑的情况。这种错误在Sora视频生成中虽然人眼容易识别，但机器识别则相对困难。

AI生成的视频、图像、音频和文本内容的真实性极高，几乎可以假冒为真，AI生成内容已经被不法分子使用，并对社会造成了危害。因此，识别内容的真实性成为AI发展和应用中必须要解决的一个问题。区分真实内容与AI生成内容主要有两种方法：被动检测和主动检测。被动检测主要是寻找真实内容与AI生成内容之间的差异，而主动检测则是在AI生成内容中主动添加水印，通过检测水印来区分真实内容与AI生成内容。

被动检测实际是分类问题

首先来看一下AI生成内容的被动检测技术，被动检测的思路是寻找真实内容与生成内容的差异性，所以本质上被动检测是一个分类问题。针对分类问题，被动测试的方法，基本上都是采用构造分类模型、训练分类模型和应用分类模型的框架展开。

我们看几个经典的工作：

第一个是AI生成文本的检测。这是一个黑盒被动测试的方法，它的目的是检测文本是AI生成的还是人写的。该方法的主要思路是：一个文本通过ChatGPT或者大语言模型重构它的问题，再把问题输入ChatGPT或大语言模重新获得答案。这样我有原始的文本，重新回答的文本，对两个文本进行相似度的检测，通过分类器就能非常容易地实现了生成文本的检测，看它到底是人自然写的文本还是有大模型生成的文本。这里有一个前提和假设，大模型回答相同的问题，它回答的思路应该是差不多的，这叫做遗传性。如果没有这个假设，这种检测方法是不成立的。

第二个就是生成图文的检测。生成图文的检测首先利用图像或文本的编码器（或提取器）对文本和图像的特征进行编码。然后，通过篡改感知的对比学习对图文信息进行比较。最终，利用多模态聚合器和多模态交叉注意力机制融合图像和文本信息，实现分类。其中一个亮点是，我们不仅能够进行二分类，还能识别文本篡改位置的细节，实现多分类。

第三项工作是深度视频检测。深度视频检测已有数年历史，大多数传统方法都是基于空间域进行的。然而，在深度伪造领域，存在一种通用方法，即上采样操作，该操作在相位谱上会产生异常特征。针对这种情况，我们可以结合空间域图像和频域信号，共同挖掘具有强迁移能力的鲁棒特征，从而实现具有高迁移性的人脸伪造检测方法。

另一项工作采用了传统方法，需要人工提供特征，例如基于音频的唇形对齐，来检测深度伪造。如果音标、音素和唇形等跨模态特征设计得当，在某些情况下可以取得非常好的效果。

被动检测技术的困境

刚才简单地说了一下被动检测，被动检测虽然取得了不错的效果，但存在一些困境。

第一，随着AIGC技术的不断进步，真实内容与AI生成内容之间的差异性逐渐缩小，这增加了被动检测的难度。因为被动检测正是基于这种差异性来进行的。

第二，因为AIGC技术一直在快速地提升当中，随着AIGC技术的提升，现有的检测技术就不能满足AIGC生成内容的真实性检测要求，这时候检测技术必然要适应AIGC的快速提升，进行相应的更新和改进。因为AIGC技术是矛，而检测技术是盾，所以会造成检测技术的相对滞后和检测成本的不断增加。
第三，被动检测通常是在固定的数据集上进行训练的。如果模型在泛化能力上，尤其是在被动检测方面不够强大，那么即使在几个数据集上训练的检测分类模型表现良好（例如达到90%或更高的准确率），也可能在领域差异较大的数据集上表现不佳，从而无法使用。在这种情况下，还需要对模型进行微调，以适应特定领域的数据集。

主动检测本质是数字水印检测

为了解决被动检测所存在的问题，研究人员提出了主动检测的概念。主动检测的方法相对直接，在AI生成的内容中嵌入一个水印。这样，检测的焦点不再是AI生成内容与真实内容之间的差异，而是检测添加的这个水印。一旦能够提取出添加的水印，便可确认内容由AI生成。从本质上讲，主动检测是数字水印或信号检测的问题，在某些方面，这比分类问题简单。

在介绍AI生成内容的主动检测之前，由于涉及水印技术，我将简要说明基于深度学习的自然文本水印技术和图像水印技术。

在这里我们介绍一种基于上下文感知的同义词替换水印技术。这种自然文本水印技术可以直接应用于大型语言模型生成的内容，为其提供水印技术支持。思路也非常简单：首先通过BERT进行词性搜索，找到合适的词汇，并在相似词中进行排序，选择相似度最高的词汇进行替换。在检测阶段，通过比较可替换的词汇与选定的同义词，就可判断文本是否由大型语言模型生成。

基于深度学习的自然图像水印技术，则采用经典的End-Decode框架，由编码器层、噪声层和解码器层组成。通过编码器层，把水印信息嵌到图像里面，通过噪声层来模拟失真，通过解码器层尝试从这个失真的信号中获得需要的水印信息。

白盒/黑盒水印有不同的适用范围

在介绍了文本水印和图像水印之后，我们来探讨利用水印技术进行AI生成内容的主动检测。在这方面，首先介绍一种AI生成文本主动检测方法，即可验证性能无损的大型语言模型生成文本水印。

这是一种白盒水印的方式。我们默认可以参与到大型模型生成AI内容的过程中。如果在这种情况下，使用白盒水印方法就变得非常简单。这种方法在token采样阶段使用伪随机函数，将token均匀分配到红名单和绿名单中。在采样过程中，通过软性设置促使模型重点采样绿名单中的token。在检测阶段，通过p-value假设检验，可以判断是否包含水印，因为它的分布是不均衡的。

对于那些不是AI大模型厂商的第三方开发者和垂直开发商，如果他们想要在AI生成的内容中添加水印，但无法控制生成过程，这种情况下怎么打水印呢？在这种情况下，我们可以采用黑盒水印方法。

在文本黑盒水印这一块，主要介绍两项工作：

第一个是生成文本的同义词替换水印技术。在这个过程中，我们对于文本中表示bit-0的词语，首先做一次词性筛选，判断这个词语是否符合修改的条件，如果该词语符合修改的条件，则利用Bert-base 模型预测该位置词语的同义词，然后选择同义词中相似度最高且表达bit-1的同义词候选替换原词。那么对于AI生成的文本，其文本中包含bit-1的词的概率要显著高于bit-0的词，可以根据这一特性通过显著性检测实现水印检测。

第二个是训练集知识注入的水印技术。如果我想保护自己的模型不被窃取，我可以通过训练集的知识注入方式给模型添加水印。这种方法利用了大型语言模型的学习能力，将知识注入与模型水印相结合，将水印信息融入特定的知识中，例如Python函数或自定义知识。在模型微调阶段，将含水印的知识注入大型语言模型中。由于水印知识已经被注入，提取过程变得非常简单，只需向大型模型提出问题即可。

AI生成图像的主动检测

接下来，介绍一下AI生成图像的主动检测。在CVPR 2024年的一项新工作中，提出了一种可证性能无损的Stable Diffusion生成图像水印技术。目前普通的应用扩散模型的水印方法会影响模型的性能，或者如果你想不影响它的性能或影响性能尽可能的小，就需要额外的训练，这对用户和模型生产厂商来说都是难以接受的。这篇论文提出了一种高斯底纹方法，该方法能让性能无损，还无需专门训练，同时实现版权保护和违规内容溯源。该方法的核心思路是在嵌入阶段，按照标准高斯分布将水印映射到潜在表示中，实现无损水印嵌入。在提取阶段，使用DDIM、inversion和逆变换技术来恢复水印信息。

AI生成语言的主动检测

再看一下AI生成的语音主动检测，语音主动检测最核心的在于通过频域内嵌入水印信息，以实现语音克隆技术的主动检测。

视频主动检测的思路也非常简单，将视频看作图像在时间轴上的扩展。因此，图像检测技术可以直接迁移到视频水印的嵌入与检测。在这一迁移过程中，唯一的变化是在目标函数中加入了时间轴的调整，效果还是不错的。

主动/被动检测技术差异何在

主动检测和被动检测相比有什么优势？我们发现数字水印的优势在于其固定性，因为它是提前嵌入的，与AIGC技术的变化没有强相关性。随着AIGC技术的发展，只要水印嵌入方法保持不变，检测方法就不需要改变。这与被动检测不同，后者随着技术的提升，真实内容与AI生成内容的差异性会减小，测试的难度就会增大。但在数字水印的情况下，除非AIGC技术发生本质性、跨越性的变化，否则检测算法基本上无需改变。

此外，由于数字水印是预先嵌入的，它不但能够实现测试，还能够实现溯源。被动检测可以实现溯源，但是它不具备直接溯源的能力，在这种情况下，如果需要进行溯源取证，可能需要改变模型的架构或添加模块，这相对于主动检测来说，实现溯源的难度更大。

所以在这种情况下，全球普遍都在推动为大模型生成内容打水印的方法。网信息办也明确要求为模型打上水印。水印分为明文水印和隐式水印两种。

隐拓智安：“用AI识别AI”

下面我介绍一下我们已经比较成熟的产品。我们开发了一个AI生成内容的安全识别框架，该框架借鉴了大型模型的设计思路，分为三个部分：训练框架、算法模型和系统集成。

我们通过构建模块化的预训练框架，为安全大模型提供基础，在安全框架的支持下，先做了一个基础大模型的训练，通过用安全的数据进行微调，生成了一个安全大模型，所有的工作都是基于安全大模型来做。

比如在检测大模型的安全性时，我要对它提问。当前主流的提问方式是使用预先设计的数据集或对抗模型。在这种情况下，我们可以直接使用安全大型模型作为专用的AI提问模型，对各种大型模型进行动态提问。提问结束后，我们会根据其回答进行检测，这一检测过程仍然基于安全大型模型，只需要把安全大模型的生成能力迁移成分类能力就解决这个问题了。

基于安全大模型，我们分别训练了两个小的模型：一个用于提问，另一个用于分析评测。这两个模型集成到系统里，对外也提供各种服务。上面是内容安全大模型一部分的训练方法，主要采用了课程学习和持续更新。在内容安全评价模型方面，我们主要基于安全大模型进行了定向的精调，从生成转变成了判断。

以上是我对“如何用AI识别AI”的分享，谢谢。

嘉程资本Next Capital是一家专注科技领域的早期投资基金，作为创新者的第一笔钱，我们极度信仰科技驱动的行业创新，与极具潜力的未来科技领袖共同开启未来。

我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

嘉程资本旗下的创投服务平台包括「嘉程创业流水席」，「NEXT创新营」、「未来联盟」等产品线，面向不同定位的华人科技创新者，构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态，超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

嘉程资本投资团队来自知名基金和科技领域巨头，在早期投资阶段富有经验，曾主导投资过乐信（NASDAQ:LX）、老虎证券（NASDAQ:TIGR）、团车（NASDAQ:TC）、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮，并创办过国内知名创投服务平台小饭桌。

嘉程资本是创新者思考的伙伴，成长的伙伴。

嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID：NextCap2017