05 Sep 2025 2 min read 人工智能

AI介入网络仇恨言论：技术介入与理性对话的新尝试

近期，一项由英特尔数据科学家Anna Bethke及其同事在加州大学圣巴巴拉分校进行的研究，展示了人工智能在应对网络仇恨言论方面的创新应用。该项目旨在开发一种新型AI工具，不仅能识别并移除仇恨言论，更能主动生成回应，例如“所使用的语言具有高度冒犯性。所有种族和社群都应获得宽容”。

该研究借鉴了ACLU和联合国人权事务高级专员的“以言对言”倡导，从Reddit和Gab等社交媒体平台收集了大量对话数据。通过分析人类用户对仇恨言论的示范性回应，自然语言处理算法被训练以生成自己的干预性回复。研究人员希望此举能“短路我们经常在这些论坛中看到的仇恨循环”，并鼓励社区内部就此类有害言论展开更深入的对话。

尽管AI生成的回应在某些情况下能达到“使用性别歧视的词语不利于富有成效的对话”的水平，但研究也指出，AI有时会产生不够理想的回应，例如“这是不允许的，而且不应该根据肤色来对待人们”。在人类评审员的盲选测试中，人类生成的回应总体上更受欢迎。该研究成果已发布在Arxiv网站上，并将在近期于香港举行的自然语言处理经验方法会议上进行展示。

这项技术的核心目标是激发更多的讨论，而非简单地在人与机器人之间进行对话。其长远愿景是促使潜在施加伤害者与受害者之间，以及社区成员之间，能够就争议性话题展开更具建设性的交流，最终目标是恢复健康的公共讨论氛围。

查看消息来源

订阅情报

推荐情报

高速野生动物通道：重塑西部迁徙廊道安全与效率

经济学诺奖揭示气候行动的紧迫性与政策滞后

观叶植物：室内空气净化的绿色解决方案

睡眠并非记忆固化的唯一途径：清醒状态下亦可形成特定类型记忆

Google MusicLM：AI音乐生成迈入新纪元，从MIDI到原始音频的飞跃