FinChat：芬兰日常话题聊天对话的语料库和评估设置

点击图片放大查看

资源介绍

创建开放域聊天机器人需要大量的会话数据和相关基准任务来评估它们。标准化评估任务对于创建模型开发的自动评价指标至关重要：否则，比较模型将需要资源昂贵的人力评估。虽然聊天机器人的挑战最近设法为英语提供了大量的此类资源，但其他语言的资源尚未可用。在这项工作中，我们为芬兰的开放领域聊天机器人研究提供了一个起点。我们描述了我们的收集努力，以创建芬兰聊天语料库FinChat，这是公开提供。FinChat 包括来自不同年龄段的人的七个主题的无脚本对话。利用这个语料库，我们还构建了芬兰聊天机器人开发的基于检索的评估任务。我们观察到，接受过对话下士训练的现成聊天机器人模型在根据自动指标选择正确答案方面的表现并不比偶然好，而人类几乎可以完美地完成同样的任务。同样，在人工评估中，对聊天机器人生成的评估集中的问题的回答主要被标记为不连贯。因此，FinChat 提供了一套具有挑战性的评估集，旨在鼓励芬兰语聊天机器人的发展。

END

标签

中等规模对话系统

上一篇自然动词学习的维苏空间数据集

下一篇情感语料库的应用程序评论与细粒数注释在德国（SCARE）

发表评论取消回复

请先登录账户再评论哦

FinChat：芬兰日常话题聊天对话的语料库和评估设置免费

资源介绍

发表评论取消回复

最新文章

热门文章

MIMIC-III（"重症监护医疗信息市场"）

NIH NCBI PMC 文章数据集

IAM 50个最常见的作家手写数据集

The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

标签云

猜你喜欢

FinChat： 芬兰日常话题聊天对话的语料库和评估设置免费

资源介绍

发表评论 取消回复

最新文章

热门文章

MIMIC-III（"重症监护医疗信息市场"）

NIH NCBI PMC 文章数据集

IAM 50个最常见的作家手写数据集

The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

标签云

猜你喜欢

MIMIC-III（"重症监护医疗信息市场"）

NIH NCBI PMC 文章数据集

IAM 50个最常见的作家手写数据集

The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

Chinese handwritten digits MNIST dataset

路透社语料库

Reddit评论

Yahoo! N-Grams 2.0

NUBES：西班牙临床文本中否定和不确定性的语料库

FinChat：芬兰日常话题聊天对话的语料库和评估设置免费

发表评论取消回复