当前位置: 首页  >  >聚焦 > > 正文

AIGC “弄脏”互联网,大模型“课本”遭污染

2023-07-31 16:00:54    来源:钛媒体
图片来源 @视觉中国

文 | 元宇宙日爆,作者 | 木木,编辑 | 文刀

"AI 制造 " 充斥互联网,连 " 真人小姐姐 " 也可以批量生成。随着生成式人工智能的爆发,一个可怕的现象出现:AI 正在污染整个互联网。

知乎成为生成无脑答案的重灾区,这些内容描述简短、概括性十足,细看逻辑混乱、错误百出。打开今日头条,用 ChatGPT 生成的虚假新闻,内容耸人听闻,足够博人眼球。


(资料图片)

AI 加持下,虚假、无意义、同质化的内容呈指数级增长,获得大量曝光。莱斯大学和斯坦福大学的科学家研究发现,这些低质、同质化、未经证实的 "AI 语言 " 如果不加以甄别,进一步被抓取作为训练 AI 的语料,AI 大模型将会走向崩溃。

AIGC" 垃圾 " 泛滥 内容平台成重灾区

生成式 AI 越来越低成本化,伴生而来的是 AI 生成信息的 " 垃圾网站 "。

外媒 NewsGuard 发布相关数据报告称 , 目前已经追踪到了大约 277 个且还在不断增加的 " 垃圾网站 ",这些网站生产了大量标题诱饵以优化广告收入。

类似的情况也发生在国内,表现形式是 AI 生成的低质内容。

" 中文互联网高质量的问答社区和创作者聚集的原创内容平台 " 知乎,如今成了 AI 无脑答案的重灾区,不少答主的内容呈现明显的 "GPT 风 ",机器翻译的文字感、混乱的逻辑扑面而来,有时还会出现事实错误,特别是在金融、医学等专业领域,没有经验的人群很容易被误导。

知乎上的 " 片儿汤话 " 答案

有知乎用户使用 AI 每隔一两分钟就可以输出一条几百字的回答。尽管已经被禁言,但其产生的错误信息依然遗留在互联网中。如果你足够细心,你会发现,自带 AI 问答功能的搜索引擎 Bing 在中文世界经常会引用知乎的内容。一些生成后就从未过人工核查的错误答案 被 Bing AI 抓取,造成低质的中文信息蔓延。

AI 对互联网内容的侵蚀不仅限于文字。在小红书、淘宝、抖音上,越来越多的 "AI 真人美女 " 的图片和视频被批量生产,还有大批 "AI 摄影 " 类账号的出现。

"AI 美女 " 造就新一代网红脸 ‍‍‍‍‍

AI 魔法棒一挥,制作成本低、效率高的 "AI 美女 " 一时间成为电商眼中的香饽饽,AI 模特、AI 主播频频出现。" 她们 " 足够吸睛,但也千篇一律," 网红脸 " 的队伍里又增加一类 AI 面孔。

如果只是用 AIGC 制造美图供人评鉴、学习倒也还好,但 AI 生图工具产生的内容开始侵犯直接与人们生活相关的领域。

淘宝上,有商家直接用 AI 生成图来取代商品实物图,一张由 Midjourney 生成的卡通少女图,被商家打上 " 绿色衬衫 " 的标签,售价 218 元。与之风格相似甚至完全相同的 AI 生成图,在网上随手就可以找到。利用 Midjourney 的垫图功能,任何人都可以自己生成无数仿照图,与卖家秀相差甚远的买家秀将再添槽点。

淘宝商家用 AIGC 网图(右)描述商品

在中文互联网,AI 大有无孔不入之势,专门教人如何用 "AI 写文赚钱 " 的课程层出不穷,卖课人号称 " 一套教学视频跟万能模板,直接套用 "。AI 话题营造出的失业焦虑中,该类课程受到追捧,曾有人通过卖课月入百万。

如今,学会了使用 AI 工具的人,将 AI 生成的内容上传到知乎、今日头条或者小红书上,吸引了流量,但也制造了不少低质量、同质化甚至信息虚假的内容垃圾。

那么,这种 AIGC 内容 " 垃圾 " 会产生危害吗?

靠 AI 识别真假 技术还不行

泛滥的 AIGC 内容加速污染互联网环境,除了影响人类获取有效信息的效率外,产出它们的工具 " 大语言模型 " 也会走向崩溃的边缘。

莱斯大学和斯坦福大学的科学家研究证明,将人工智能生成的内容输入人工智能模型,会导致输出质量下跌。

研究人员将这一现象解释为 " 模型自噬障碍 "(MAD),即如果 AI 只学习其他 AI 生成的内容,在经过几代训练后,AI 将输出无意义的垃圾信息,最终走向 " 模型崩溃 " 这一结果。 研究人员表示,对于大语言模型而言," 数据清洁 " 十分重要。

" 世界正在奔向一个未来:生成式 AI 的爆发,导致了互联网上的合成数据很快就会超过真实数据。" 按照研究者的说法,区分合成数据与真实数据,无论对人类本身还是大模型发展都变得势在必行。

最近,中国首个 AIGC 监管文件《生成式人工智能服务管理暂行办法》落地,该《办法》明确指出 AIGC 服务提供者要 " 增强训练数据的真实性、准确性、客观性和多样性 "。

生成式人工智能服务者有义务保证数据质量

在《办法》的指导下,国内的内容平台也推出针对 AI 生成内容的管理措施,知乎、抖音、小红书等平台均已发布有关 AIGC 内容的规定。

《抖音关于人工智能生成内容的平台规范暨行业倡议》称,针对人工智能生成的视频、图片和衍生的虚拟人直播,发布者应对人工智能生成内容进行显著标识,帮助其他用户区分虚拟与现实,特别是易混淆场景。该《倡议》提到,平台提供统一的人工智能生成内容标识能力,帮助创作者打标,方便用户区分。同时,平台提供用户反馈渠道,方便用户反馈违规的生成内容。

知乎也发布了《关于应用 AIGC 能力进行辅助创作的社区公告》,公告显示,如果创作者发布 AIGC 生成的内容时,没有主动使用 " 包含 AI 辅助创作 " 的标签进行声明,平台会添加相关标识并限流,同时鼓励知友对利用 AIGC 技术,扰乱社区秩序的内容和账号进行举报,举报类型里新增了 "AI 生成内容 " 的选项。

规则出现了,但在实操中出现了 Bug。

知乎用户反馈原创内容被误判为 AI 生成

知乎创作者们对平台 " 打标签 "(审核)的能力表示质疑。有用户反馈,自己原创的内容被当成了 AI 创作打了 AI 标记,甚至有人因此被禁言。

这种 " 误判 " 现象背后又隐藏了一个细思极恐的问题。假如平台采用机器来识别 AI,机器对同类的 " 宽容度 " 或许会很高,让计算机还无法精准识别出 AI 犯的错误。

最近,OpenAI 推出的 AI 文本识别工具 AI-Text-Classifier 就因准确率太低而被官方下架。DetectGPT、GPTZero 等 AI 生成检测工具的失误率也都高得惊人。

随着 AIGC 技术不断迭代升级,AI 生成内容将越来越具备迷惑性,想通过 AI 识别工具遏制 AI 内容垃圾的滋生,从技术成果上看成功率还不高。

看来,在充满人工智能的未来," 人工 " 有多强大," 智能 " 才有多强大。在 AIGC 的巨大冲击下,如何不被内容垃圾裹挟、实现人工与智能的良性共进将成为 AI 下一阶段发展的重要挑战。

关键词:

«上一篇:北交所打新:宏裕包材明日申购 »下一篇: 最后一页