2 min read

AI内容递归循环:生成式AI的“毒瘤”与未来风险

生成式AI模型,如Dall-E和ChatGPT的快速普及,标志着AI内容爆炸的开端。然而,其训练数据主要来源于网络,这些数据本身就充斥着偏见、刻板印象和错误信息。AI模型在学习过程中,不仅复制,更会放大这些负面内容,导致虚假信息、歧视性言论的泛滥。

当前AI发展呈现出对模型规模、数据集和算力(GPU)的极端追求。动辄万亿参数的模型需要海量网络数据作为“训练基石”。尽管已有研究揭示网络数据的质量堪忧且充斥负面内容,大型AI公司仍在竞相扩大规模,忽视其潜在风险。生成式AI的出现,使得这一问题尤为严峻,模型不再是客观反映现实,而是成为社会偏见的编码器和放大器。

斯坦福大学的研究显示,合成文章和虚假新闻的数量显著增长。音乐生成公司Boomy已生成数千万首歌曲,Nvidia预测到2030年,AI模型中的合成数据将超越真实数据。更令人担忧的是,这些由生成式AI产生的内容,又将反过来成为未来AI模型的训练素材,形成一个“AI训练AI”的递归循环。这种由AI生成并被AI训练的数据,将不可避免地带有并放大社会不公和刻板印象,且将被应用于医疗、教育、法律等高风险领域,其潜在的灾难性后果亟待正视。

Synthetic Data Is a Dangerous Teacher
In the race to scale up, the number of AIs being trained on poor-quality data sets has swelled—and it’s going to amplify all kinds of inequities.
订阅情报