麻省理工学院称第三方 Twitter 机器人检测工具“不准确”:数据集过于简单

35小吃技术网 推荐阅读 2023年10月08日14时21分41秒 252 0

IT之家6月26日消息,来自麻省理工学院(MIT)的研究团队近日发表论文指出,现有的第三方()机器人账户自动检测工具并不准确,因为其数据集过于简单,缺乏通用性。

此前有报道称,过多的机器人账户是阻止马斯克收购 的原因之一。 当时声称其每日活网跃用户中有5%是机器人账户,但马斯克表示这个数字远高于5%。

有自己的机器人帐户识别系统,但并未公开。 因此,对于普通大众来说,第三方工具是比较可行的检测方法。 这些第三方工具使用从 收集的数据集和机器学习模型来检测机器人的可疑迹象。 许多工具和模型已被用来研究社交媒体上的机器人活动,相关论文已有数千篇。

麻省理工学院称第三方 Twitter 机器人检测工具“不准确”:数据集过于简单-第1张图片

▲ 机器人检测的公共基准数据集

这些论文中的大多数基准数据集都是在不同推文上收集的数据的集合,其中许多数据是在特定推文(例如包含某些主题标签的推文)上收集的,每个推文都被人类手动标记为机器人或人类。 虽然这种经过专门训练的机器人检测模型在这个专业领域表现良好,但它们并没有覆盖整个领域,并且严重依赖于特定数据,而不是机器人和人类之间的根本差异。

当这些模型在其他领域的数据集上进行测试时,它们的准确性很差,几乎与随机预测相当。 与此同时,即使是相对简单的模型在许多数据集上也可以与最先进的机器学习模型 (SOTA) 相媲美。

▲简单模型与SOTA模型在基础数据集上的性能对比

换句话说,在一个数据集上训练的模型不能推广到其他数据集,并且由于数据收集简单,现有的机器网人检测数据集的通用性较差。

麻省理工学院称第三方 Twitter 机器人检测工具“不准确”:数据集过于简单-第2张图片

最后,研究人员警告说,用户在使用现有的机器人检测数据集时应仔细考虑可能存在哪些类型的偏差。 研究人员认为,一个根本的解决方案是等社交媒体本身应该为研究人员提供丰网富、可靠的数据和高质量的真实标签。

论文地址附IT之家:点此前往