标签化:人工智能内容标签工作的新浪潮

标签化:人工智能内容标签工作的新浪潮
2024年04月10日 11:54 SEO_SEM营销顾问大师

新石油不是数据或注意力。是言语。构建下一代人工智能模型的差异化因素是在计算能力、存储和能源标准化时对内容的访问。

但网络已经变得太小,无法满足对新模型的渴望。

一些高管和研究人员表示,该行业对高质量文本数据的需求可能会在两年内供不应求,从而可能减缓人工智能的发展。1

即使是微调似乎也不如简单地构建更强大的模型那么有效。 Microsoft 研究案例研究表明,有效的提示可以比微调模型高 27%。2

我们想知道未来是否将由许多小型的、经过微调的模型组成,还是由一些大型的、包罗万象的模型组成。看来是后者。

没有数据策略就没有人工智能策略。

由于渴望获得更多高质量的内容来开发下一代大型语言模型 (LLM),模型开发人员开始为自然内容付费,并重新努力标记合成数据。

对于任何类型的内容创作者来说,这种新的资金流都可以开辟通向新的内容货币化模式的道路,从而激励质量并使网络变得更好。

图片来源:Lyna ™

了解您的客户:人工智能

如果内容是新石油,那么社交网络就是石油钻井平台。谷歌每年投资 6000 万美元,利用 Reddit 内容训练其模型,并在搜索顶部显示 Reddit 答案。便士,如果你问我的话。

YouTube 首席执行官尼尔·莫汉 (Neal Mohan) 最近向 OpenAI 和其他模型开发人员发出了明确的信息,即禁止在 YouTube 上进行培训,以捍卫公司庞大的石油储备。

目前正在对 OpenAI 提起诉讼的《纽约时报》发表了一篇文章,指出 OpenAI 开发 Whisper 是为了在 YouTube 成绩单上训练模型,而谷歌则使用来自其所有平台的内容(例如 Google 文档和地图评论)来训练其 AI楷模。

Appen 或 Scale AI 等生成型 AI 数据提供商正在招募(人类)作家来为 LLM 模型培训创建内容。

毫无疑问,作家并不会通过人工智能写作而致富。

作家每小时花费 25 至 50 美元,执行诸如对人工智能响应进行排名、撰写短篇小说和事实核查等任务。

申请人必须拥有博士学位。或硕士学位或目前正在上大学。数据提供商显然正在寻找专家和“优秀”作家。但早期迹象是有希望的:为人工智能写作可以盈利。

图片来源:凯文·英迪格

图片来源:凯文·英迪格

模型开发人员在网络的每个角落寻找好的内容,有些人很乐意出售它。

像 Photobucket 这样的内容平台以每张 5 美分到 1 美元的价格出售照片。短视频可以获得 2 到 4 美元;较长的电影每小时的镜头费用为 100 至 300 美元。

该公司拥有数十亿张照片,在自家后院开采了石油。尤其是在内容变现越来越难的情况下,哪位CEO能够经受得住这样的诱惑呢?3

来自 免费内容:

出版商正受到多方面的挤压:

很少有人对第三方 cookie 的消亡做好准备。社交网络发送的流量减少(元)或质量下降(X)。大多数年轻人从 TikTok 获取新闻。上海黄金交易所 (SGE) 已近在眼前。

讽刺的是,更好地标记人工智能内容可能有助于法学硕士的发展,因为更容易将天然内容与合成内容区分开来。

从这个意义上说,对人工智能内容进行标记符合法学硕士开发人员的利益,这样他们就可以将其排除在培训之外或以正确的方式使用它。

标签

钻研单词来训练法学硕士只是开发下一代人工智能模型的一方面。另一种是标签。模型开发者需要标签来避免 模型崩溃,社会也需要它作为抵御假新闻的盾牌 。

尽管 OpenAI 由于准确性低(26%)而放弃了水印,但人工智能标签的新运动正在兴起。4大型科技公司(Google、YouTube、Meta 和 TikTok)并没有给内容本身贴上标签(这似乎是徒劳的),而是推动用户用胡萝卜加大棒的方式给人工智能内容贴上标签。

谷歌采用双管齐下的方法来打击搜索中的人工智能垃圾信息:突出显示 Reddit 等论坛(其中内容很可能是由人类创建的)和处罚。

来自 人工智能:

谷歌在 SERP 中显示更多来自论坛的内容是为了平衡人工智能内容。验证是终极的人工智能水印。尽管 Reddit 无法阻止人类使用人工智能来创建帖子或评论,但由于谷歌搜索不具备以下两项功能,因此机会较低:审核和业力。

是的, 内容妖精 已经瞄准了 Reddit,但 7300 万日活跃用户中的大多数都提供了有用的答案。1内容审核者会通过禁止甚至踢出垃圾邮件的方式来惩罚垃圾邮件。但 Reddit 上最强大的质量驱动因素是 Karma,“反映用户社区贡献的用户声誉评分”。通过简单的赞成票或反对票,用户可以获得权威和可信度,这是谷歌质量体系中不可或缺的两个要素。

谷歌最近澄清称,希望商家不要使用 IPTC 元数据协议从图像中删除 AI 元数据。

当图像具有像compositeSynthetic这样的标签时,谷歌可能会在任何地方将其标记为“人工智能生成”,而不仅仅是在购物时。5 删除人工智能元数据的惩罚尚不清楚,但我想象它就像链接惩罚。

IPTC 与 Meta 用于 Instagram、Facebook 和 WhatsApp 的格式相同。两家公司都为来自自己的法学硕士的任何内容提供 IPTC 元标签。越多的人工智能工具制造商遵循相同的准则来标记人工智能内容,检测系统的工作就越可靠。

当使用我们的 Meta AI 功能创建逼真的图像时,我们会做几件事来确保人们知道人工智能的参与,包括在图像上放置您可以看到的可见标记,以及在图像文件中嵌入不可见的水印和元数据。以这种方式使用隐形水印和元数据可以提高这些隐形标记的稳健性,并帮助其他平台识别它们。6

当内容看起来像人工智能时,人工智能内容的缺点很小。但当人工智能内容看起来真实时,我们就需要标签。

虽然广告商试图摆脱人工智能外观,但内容平台更喜欢它,因为它很容易识别。7

对于商业艺术家和广告商来说,生成人工智能有能力大幅加快创作过程,并向客户大规模提供个性化广告——这是营销界的圣杯。但有一个问题:许多图像人工智能模型都会生成卡通般的平滑度、明显的缺陷或两者兼有的特征。

消费者已经开始反对“人工智能外观”,以至于基督教慈善机构 He Gets Us 的一则不可思议的电影超级碗广告被指责是由人工智能诞生的——尽管它的图像是由摄影师创作的。

YouTube 开始对视频创作者实施新的指导方针,要求逼真的人工智能内容需要贴上标签。8

生成式人工智能带来的挑战一直是 YouTube 持续关注的领域,但我们知道人工智能带来了新的风险,不良行为者可能会在选举期间试图利用这些风险。人工智能可用于生成可能误导观众的内容,特别是当他们不知道视频已被更改或合成创建时。为了更好地解决这一问题并在观看者正在观看的内容被更改或合成时通知观众,我们将开始引入以下更新:

创作者披露:创作者将被要求披露何时创建了真实的更改或合成内容,包括使用人工智能工具。这将包括选举内容。标签:我们将标记不违反我们政策的真实的、经过修改或合成的选举内容,以清楚地向观众表明某些内容已被修改或合成。对于选举,此标签将显示在视频播放器和视频描述中,并且无论创作者、政治观点或语言如何,都会显示。9

迫在眉睫的最大担忧是虚假人工智能内容可能会影响 2024 年美国总统大选。

没有哪个平台想成为 2016 年的 Facebook,它的声誉受到了持久的损害,影响了其股价。

中国和俄罗斯国家行为者已经尝试使用虚假人工智能新闻,并试图干预台湾和即将到来的美国选举。10

现在 OpenAI 即将发布 Sora,它可以根据提示创建超现实视频,因此不难想象 AI 视频在没有严格标签的情况下如何导致问题。局势很难得到控制。 Google 图书已经提供了明确由 ChatGPT 编写的图书。11

图片来源:凯文·英迪格

带走

标签,无论是精神上的还是视觉上的,都会影响我们的决定。他们为我们诠释世界,并有能力创造或摧毁信任。就像购物中的类别启发一样,标签简化了我们的决策和信息过滤。

来自 凌乱的中间:

最后,类别启发式的想法,客户关注的数字以简化决策,例如相机的百万像素,提供了指定用户行为优化的途径。例如,销售相机的电子商务商店应该优化其产品卡,以直观地优先考虑类别启发式。诚然,您首先需要了解您的类别中的启发式方法,它们可能会根据您销售的产品而有所不同。我想这就是当今 SEO 成功所需要的。

很快,标签就会告诉我们内容何时由人工智能编写。 Meta 在对 23,000 名受访者进行的公开调查中发现,82% 的人希望在人工智能内容上贴上标签。12共同标准和惩罚是否有效还有待观察,但紧迫性是存在的。

这里还有一个机会:标签可以让人类作家成为焦点,并使他们的内容变得更有价值,这取决于人工智能内容的质量。

最重要的是,为人工智能写作可能是另一种内容货币化的方式。虽然目前的小时费率不会让任何人变得富有,但模型培训为内容增加了新的价值。内容平台可以找到新的收入来源。

网络内容已经变得高度商业化,但人工智能许可可以激励作家再次创作优质内容,并使自己摆脱附属机构或广告收入的束缚。

有时,对比使价值可见。也许人工智能毕竟可以让网络变得更好。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部