WAC:维基百科对话在线滥用检测的科珀斯免费

Khan 15 2021-08-24 NLP

资源介绍

随着在线社交网络的普及,监控所有用户生成的内容变得越来越困难。因此,自动化互联网上不当交换内容的适度过程已成为一项优先任务。为此提出了方法,但要找到合适的数据集来培训和开发这些方法可能具有挑战性。这个问题对于基于对话结构和动态的信息的方法尤其适用。在这项工作中,我们提出了一个基于维基百科评论语料库的原始框架,其中带有不同类型的评论级滥用注释。与现有的公司相比,主要贡献涉及对话的重建,后者只关注孤立的信息(即从对话语境中取出)。这份由超过 38 万条注释消息组成的大语料库为在线滥用检测,尤其是基于上下文的方法开辟了视角。我们还建议,除了这个语料库,一个完整的基准平台,以刺激和公平比较科学工作围绕内容滥用检测的问题,试图避免结果复制的反复出现的问题。最后,我们将两种分类方法应用于数据集,以展示其潜力。

END

发表评论

猜你喜欢