2 min read

AI介入网络仇恨言论:技术介入与理性对话的新尝试

AI介入网络仇恨言论:技术介入与理性对话的新尝试

近期,一项由英特尔数据科学家Anna Bethke及其同事在加州大学圣巴巴拉分校进行的研究,展示了人工智能在应对网络仇恨言论方面的创新应用。该项目旨在开发一种新型AI工具,不仅能识别并移除仇恨言论,更能主动生成回应,例如“所使用的语言具有高度冒犯性。所有种族和社群都应获得宽容”。

该研究借鉴了ACLU和联合国人权事务高级专员的“以言对言”倡导,从Reddit和Gab等社交媒体平台收集了大量对话数据。通过分析人类用户对仇恨言论的示范性回应,自然语言处理算法被训练以生成自己的干预性回复。研究人员希望此举能“短路我们经常在这些论坛中看到的仇恨循环”,并鼓励社区内部就此类有害言论展开更深入的对话。

尽管AI生成的回应在某些情况下能达到“使用性别歧视的词语不利于富有成效的对话”的水平,但研究也指出,AI有时会产生不够理想的回应,例如“这是不允许的,而且不应该根据肤色来对待人们”。在人类评审员的盲选测试中,人类生成的回应总体上更受欢迎。该研究成果已发布在Arxiv网站上,并将在近期于香港举行的自然语言处理经验方法会议上进行展示。

这项技术的核心目标是激发更多的讨论,而非简单地在人与机器人之间进行对话。其长远愿景是促使潜在施加伤害者与受害者之间,以及社区成员之间,能够就争议性话题展开更具建设性的交流,最终目标是恢复健康的公共讨论氛围。

查看消息来源

订阅情报