AIGC 浪潮下，如何构筑内容安全堡垒_

自 ChatGPT 等大语言模型问世,AIGC 迅速崛起,成为内容创作与分发的全新引擎。它不仅改变了文章写作、音乐创作、AI 绘画和辅助编程等领域,更将影响力渗透到各行各业。然而,随着相关技术与产品的落地应用,AIGC 内容安全问题逐渐凸显,成为企业、开发者必须直面的挑战。

《生成式人工智能服务管理暂行办法》的颁布,明确了 AIGC 海量生成数据需要纳入监管审核范围。在监管合规性、用户体验和社会价值与责任的多重要求下,内容风控能力成为了平台运营的基础能力之一。七牛云紧密贴合 AIGC 行业特性,推出一套完备的「AIGC 内容安全一体化解决方案」,涵盖图片、文字、音视频内容审核以及备案支持等方面。尤其针对智能体、问答模型、大语言模型、多模态模型等场景,提供柔性处置策略。

AIGC 内容审核的挑战

内容安全作为平台生态发展的基础防线,对于生成式大模型而言,要做好内容风控,确保内容安全,面临的挑战是前所未有的。

其一,输入/输出要求高:需要明确区分可以提问和不可以提问的内容。针对一些必须正确回答的问题,首先要正确识别用户输入的情感语义,同时保证必须输出内容的正确性。其二,违规类型不可预测:AIGC 生成的数据内容有高度的不可预测性,违规类型也可能是全新的。目前也出现了某些用户恶意利用大模型多轮对话、结合上下文语义进行作恶,因此需要结合具体场景制定对应的审核策略。其三,审核时效性要求高:大模型的应用场景与传统的社交场景有区别,大模型通常是采用流式的输出,受限于 AI 输出速率,审核时效要求在毫秒级别。其四,模型价值观构建难:有部分大模型公司直接使用开源基座模型,或者是经过了微调,但是由于训练数据未清洗的原因,模型的价值观可能与主流价值观不一致。

AIGC 内容安全一体化解决方案

七牛云为 AIGC 行业提供覆盖全流程、全场景、全维度的内容风控解决方案。

内容安全体系构建

(1)精准匹配业务逻辑布控,覆盖模型训练和应用的全流程

1)模型训练阶段:尽可能不生成有害内容

样本清理与风险识别:对样本进行清理,识别其中的风险,包括预训练样本和人工标注样本(SFT)中潜在的敏感问题。敏感问题处理:一旦出现如政治和历史知识等敏感问题,会交由专业人员进行进一步的标注。安全对齐:通过奖励机制来判断内容是否有害,以确保模型训练与安全目标的一致性。2)模型应用阶段:阻止有害内容传播,为敏感问题提供恰当答案用户输入风险识别:在用户输入阶段进行风险识别,检测输入内容是否存在风险。参考信息风险识别:对知识库和网络检索信息进行风险识别,防止注入或诱导性内容导致模型输出不适当的信息。模型输出风险检测:使用敏感问题知识库和安全代答模型,给出安全的输出。针对模型输出进行风险检测,确保内容的安全性。(2)灵活设计调用流程,兼顾内容安全与用户体验用户输入的处理流程包括 prompt 识别,将其分为有风险和无风险两类。对于无风险的输入,模型将进行正常的识别和回答;有风险的 prompt 根据内容进一步分类为:不可回答的问题、需要准确回答的问题、需要纠错回答的问题和需要正向引导的回答。正常回答和不可回答,这两种场景是比较明确也是相对容易判断的,但我们遇到的大量情况是剩下的三种:第一种,需要准确回答的问题。在国内,涉政问题要准确回答,在海外可能是一些种族或者未成年人相关的问题,这个时候模型需要进入的是知识库和安全代答模型。第二种,需要纠错回答的问题。它跟需要准确回答的问题非常像,只是在这个问题里面已经带有了不正确的知识或者不规范的表述,尤其涉及到一些敏感地区以及历史知识,这时需要纠正错误,然后再回答问题。第三种,需要正向引导的回答内容。当用户提出问题时,如果不能针对问题直接回答,而是要引导用户走向新的方向。例如,如果用户问生活太痛苦了,想要躺平或自杀,有什么好的无痛苦自杀方法等,这时绝对不能回答他的问题,而是要正向引导他咨询心理医生或者与家人倾诉等。当识别出属于 “正向引导回答问题” 标签后,就可以进入安全代答模型回答环节。(3)精准定义风险,1000+ 风险标签保障识别效果定义风险是内容安全体系建设的核心部分。建立了涵盖文本、视频、音频等内容的四级内容标签体系,拥有涉政、涉黄、暴恐、辱骂、违禁等 1000 多个细化内容标签,实现更高效、更精细的内容识别。

理解复杂语义

(1)上下文语义理解

首先要基于上下文进行对象和主题的识别,尤其在识别敏感对象或主题时,必须依据上下文来区分真实情况、虚构情节或历史情境。例如,在提到一些领土或者政治事件时,需要判断其是真实存在的对象、虚构的情节还是历史过往。(2)意图和观点的细化从对象和主题的识别扩展到意图和观点的识别。包括对人物、违禁品、违法行为等类别的细致划分。对于违禁品类,需要进一步分析其背后的意图,如是否在教授制作、买卖、运输或诱导他人参与。对于人物类,还需识别如辱骂、诋毁、戏谑、轻浮、讽刺等不同态度和表达方式。(3)多模型策略不依赖单一的大模型识别所有风险,而是采用多个模型针对不同领域识别风险,如对象识别模型、观点识别模型等。(4)长文本处理采用滑动窗口技术进行分段处理,通过维护上下文信息来提高识别效率和准确性,同时减少重复计算,提高处理速度并降低成本。

识别多模态内容

除了文本,音视频内容的识别能力至关重要,且识别难度更大,复杂性更强。

(1)音频内容识别在 AIGC 的场景下,模型可能会模拟真实人物的声纹,带来伪造和滥用的风险。这部分的识别分为语音识别和声纹识别两部分。语音识别将音频转写为文本,再利用 NLP 技术进行语义分析。除了内容,声音本身也可能是风险的来源,例如使用恐怖分子或敏感人物的声音进行伪造。声纹识别技术用于确认声音是否来自已知的敏感人物,需要区分声音内容和声源是否安全,避免敏感人物的声音被滥用。(2)视觉内容识别视觉传统方法侧重于识别对象和主题,如色情、暴恐场景、敏感人物、OCR 错误等。这类看似有画面感且简单,但实际上面临的挑战很大。在 AIGC 出现后,除了识别画面中的对象和主题,还需理解画面隐含的意图,如侮辱或诋毁行为。例如,识别对旗帜的不当行为,需要理解视觉内容背后的意图。目前,七牛采用多模态方法,结合文本和视觉信息进行语义理解。使用对比学习等方法,将图像的语义特征与 NLP 模型对齐,即对齐不同模态的语义空间,以提高识别的准确性。简单来说,AIGC 内容安全一体化解决方案通过精准匹配业务逻辑布控、灵活设计调用流程、精准定义风险、深入理解上下文语义、细化意图和观点、采用多模型策略、妥善处理长文本、准确识别音频内容、精准识别视觉内容等多维度策略,有力确保 AIGC 内容的安全性与合规性。

随着生成式大模型在各行业的广泛落地应用,内容风险将更加复杂。近两年,七牛云在 AIGC 领域积极探索,结合多年积累的音视频技术与 AI 算法,持续创新和优化,致力于为 AIGC 行业的健康发展提供坚实支撑。通过对文本、音频、视觉等多模态内容的全面审核,助力互联网平台实现更加精细化的内容生态运营治理。