WAC：维基百科对话在线滥用检测的科珀斯

点击图片放大查看

资源介绍

随着在线社交网络的普及，监控所有用户生成的内容变得越来越困难。因此，自动化互联网上不当交换内容的适度过程已成为一项优先任务。为此提出了方法，但要找到合适的数据集来培训和开发这些方法可能具有挑战性。这个问题对于基于对话结构和动态的信息的方法尤其适用。在这项工作中，我们提出了一个基于维基百科评论语料库的原始框架，其中带有不同类型的评论级滥用注释。与现有的公司相比，主要贡献涉及对话的重建，后者只关注孤立的信息（即从对话语境中取出）。这份由超过 38 万条注释消息组成的大语料库为在线滥用检测，尤其是基于上下文的方法开辟了视角。我们还建议，除了这个语料库，一个完整的基准平台，以刺激和公平比较科学工作围绕内容滥用检测的问题，试图避免结果复制的反复出现的问题。最后，我们将两种分类方法应用于数据集，以展示其潜力。

END

标签

大规模文本分类

上一篇阿拉伯语语音语料库

下一篇开放式研究科珀斯

发表评论取消回复

请先登录账户再评论哦

WAC：维基百科对话在线滥用检测的科珀斯免费

资源介绍

发表评论取消回复

最新文章

热门文章

MIMIC-III（"重症监护医疗信息市场"）

IAM 50个最常见的作家手写数据集

The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

Chinese handwritten digits MNIST dataset

标签云

猜你喜欢

WAC：维基百科对话在线滥用检测的科珀斯免费

资源介绍

发表评论 取消回复

最新文章

热门文章

MIMIC-III（"重症监护医疗信息市场"）

IAM 50个最常见的作家手写数据集

The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

Chinese handwritten digits MNIST dataset

标签云

猜你喜欢

MIMIC-III（"重症监护医疗信息市场"）

IAM 50个最常见的作家手写数据集

The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

Chinese handwritten digits MNIST dataset

NUBES：西班牙临床文本中否定和不确定性的语料库

Reddit评论

Yahoo! N-Grams 2.0

句子/概念对的真实含义

通过安装残余物来在自然语言推理中未学习数据集偏差

发表评论取消回复