Reddit与AI的数据之争

作者: malt

来源: 果壳

发布日期: 2024-03-29 12:00:18

本文探讨了Reddit与AI之间的数据之争,Reddit作为UGC平台,其内容被AI公司用于训练模型,引发了用户对于数据使用的争议。同时,Reddit在AI时代的数据价值被重新评估,其平台上的用户生成内容被视为AI训练的宝贵资源。

当我们感慨AI快把人类一锅端了之时,有大聪明发现了AI的一生之敌——弱智吧。于是,我们看到了类似《我教AI弱智吧问题,结果它疯了》《把ChatGPT和文心一言扔进弱智吧,谁可以先出院?》这样的整活实验,俨然把弱智吧问题当成中国人自己的图灵测试。细瞅他们怎么问,发现问的是“蓝牙耳机坏了,应该去看耳科还是牙科”,都不用看AI怎么答,AI在攻陷人类之前,弱智吧就是最后一座堡垒。

就这样,贴吧这么个老古董,和光鲜亮丽的AI,连接在了一起。

2005年,硅谷也诞生了自己的“贴吧”——Reddit。“苟”了19年的它,也终于迎来新叙事:当地时间3月21日,Reddit在纽交所敲钟上市,较此前发行预计的65亿美元估值计算,收盘市值已增加30亿美元,涨幅达46%。要知道,这家公司从未盈利,且累计亏损超过7亿美元。那市场为何这么乐观?其中一个原因是,Reddit和多家AI公司签了数据授权协议,收入合计有2.03亿美元。

“想拿我的数据炼AI,那麻烦先把帐结一下。”这大概就是Reddit的心里话。但对于一个UGC(用户生成内容)平台,用户难道不是“衣食父母”吗?“Reddit把我们卖了。”这是用户们在明面上的控诉。关于Reddit,我们有太多想问的了。Reddit敢为人先。它是第一家公开向生成式AI新贵们叫板的公司,要求后者只要用到平台语料训练AI就必须付钱。关键是,Reddit“得逞”了。

据路透社报道,今年2月,它和Google谈好价码——6000万美元(每年!)。

再怎么说,Reddit也是全美流量前五的网站,仅次于Google、YouTube、Facebook以及Amazon。具体到更硬的指标,它在招股书里说月活跃用户有3.3亿,日活7310万,活跃着的讨论组(subreddit)有10万个。回答“Reddit的语料为何珍贵?”之前,得先问“语料为何珍贵?”。

在AI时代,少不了数据、算力和算法这三大要素。数据是基础,算力作为支撑,算法相当于引擎,三者相互依存、促进。

早期大模型GPT训练所用的文本语料中,有书籍、网页爬取、社交媒体平台、百科、代码这几类。其中就有一个叫“WebText”的语料,这个资源爬取了Reddit上那些至少有三个赞的内容,等于说,经过了一层初筛,标准是“是否够流行”。

有意思的是,语料库的英文是“corpus”,这个词源自拉丁语,是“身体”的意思。将语料库形容为AI的身体不知道恰不恰当,但从“身体是革命的本钱”去理解倒是成立的,没有语料数据,就炼不了AI。

a16z创始人Marc Andreessen认为,这波AI浪潮之所以能兴起,正是因为互联网在过去二十几年来沉淀了大量的数据。

但人工智能研究和预测组织Epoch指出,高质量的文本数据会在2023至2027年之间消耗殆尽。虽然Epoch也指出其分析方法和模型的局限,但AI训练消耗数据的贪婪,是不言而喻的。谁到Reddit上都能创建讨论组(subreddit),也可以设置“吧主”维护,这和我们知道的贴吧没什么不同。

Reddit弱化了“大V”的存在,谁都可以发言(匿名也行),谁都可以点赞、点踩,获赞数多的会被顶上去,这种排序是“民意的反映。你被点赞了,就能收获Karma。这个指标,代表了用户的在社区的贡献价值以及活跃度。目前,活跃着的讨论组有10万个。截至2023年12月,Reddit上累计的帖子有10亿个,160亿条回复。

在这个大型贴吧里,你能找到热门冷门形形色色的组:比如各种r/xxxxPorn,xxxxPorn并不是你想的那样,通常代表着人对xxxx的极度沉迷,组友喜欢发布相关的“让人极度舒适的内容”,比如r/FoodPorn、r/RoomPorn、r/DesignPorn;警察!有人往肉卷里塞垃圾食品|Reddit截图。比如r/memes(收梗图的进);还有人热衷写两句话恐怖故事,以及讨论都市传说……

现任CEO Steve Huffman对《纽约时报》说,他认为Reddit的平台内容非常有价值,它们的新(newness)和相关性(relevance)对大模型训练都是“刚需”。一个在美国流量排前五的平台,每分每秒都会有新的讨论产生。至于相关性,贴吧里人以群分,话题足够垂直,讨论足够深入……在各个细分话题里,都是不那么泛化的讨论,这可能就是Huffman说到的相关性。

攒了19年的人类对话实录,在AI公司眼里,就是“黄金”。最受欢迎的讨论组就是r/funny,到哪都是乐子人最多|Reddit截图。“Reddit比互联网上任何地方都够生发、容纳真实的对话,”Huffman说,“在这里,我们能看到人在心理治疗、戒酒阶段会说的那种心里话,或者在别的地方不会说的话。”真实,也意味着人们会在这里释放恶意。

Reddit上不乏宣扬暴力和有色情暗示的讨论组,比如曾有一个叫“r/FatPeopleHate”的组,超15万人关注,他们找来胖子的照片,还主要针对女性,会给照片写上刻薄的注文。

Reddit前产品高级副总裁Dan McComas,是封禁“恶意组”的关键人物。后来,他也因此被人肉、威胁。

2015年,McComas出来做了一个类似Reddit的社区Imzy,但绝对禁止血腥色情,可以打赏其他用户,0广告,但半年后就退场了。既不绿色也不友好的Reddit仍在高歌猛进。2017年愚人节,Reddit搞了一个线上实验。官方先放出一张1000×1000的像素画布,并设定规则:每名用户每五分钟可以往画布上放一个像素,也就是在小格子上涂抹任意一种颜色。

这种“反人类”的规则,使得用户无法独自操作,只能拉帮结社、共同创作。

就这样,文化符号、公共事件等都微缩在了最终的成品上,也没有原本不少人预想的糟糕,相反,是一种杂乱中的和谐。这些用户既可以为了认定的图腾作画,也能让华尔街惊掉下巴。

2021年一月初,老牌游戏连锁店游戏驿站股票不过20美元,最后竟一度涨到了400美元,这迫使知名做空机构MelvinCapital紧急募资37.5亿美元平仓认输,而做空起家的香橼宣布不再做空,只做多。而这一切仅仅只是从Reddit上的一个吐槽帖开始的。一大群在游戏驿站买过游戏,在金融危机期间认为自己是被华尔街“洗劫”的Reddit用户,恼羞成怒,联合起来all in游戏驿站。

“散户反击华尔街”一战,就此打响。

2020年3月,那会儿刚退出微软董事会的比尔·盖茨,就在Reddit上直接与网友互动,回答美国网民有关新冠病毒防疫及治疗的问题。Reddit经常能请来大牌坐镇|GIPHY。不少人在Reddit上说,“之所以免费,因为我们才是产品。”Reddit去年收紧了API授权,牢牢把握住自己平台的内容。

埃隆·马斯克将Twitter改成X后,也这么干,有人去扒了隐私政策,发现在2.1条例中,明确写道:“我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或人工智能模型。”另外,也有人怀疑微博评论机器人@评论罗伯特就是通过平台内容训练出来的机器人。它的留言画风如下:图片来源:微博@罗伯特受害者联盟。

但Reddit也做了点别的:给核心用户和版主、员工的亲朋好友们预留大约176万股股票,占发行总额8%(Huffman本人的持股也就3.3%)。不同于其他投资者,这些用户不受锁定协议约束,可以在交易首日立即出售股份。有网友抱怨,Reddit早已混入不少AI生成的内容,卖给AI公司训练,是AI训练AI吗?

UUID: 01ab8745-f8af-4ad3-a3d3-761c636b1068

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2024/果壳_2024-03-29_“想拿我的数据炼 AI,那麻烦先把帐结一下。”.txt

是否为广告: 否

处理费用: 0.0076 元