FinChat: 芬兰日常话题聊天对话的语料库和评估设置免费

Khan 21 2021-08-24 NLP

资源介绍

创建开放域聊天机器人需要大量的会话数据和相关基准任务来评估它们。标准化评估任务对于创建模型开发的自动评价指标至关重要:否则,比较模型将需要资源昂贵的人力评估。虽然聊天机器人的挑战最近设法为英语提供了大量的此类资源,但其他语言的资源尚未可用。在这项工作中,我们为芬兰的开放领域聊天机器人研究提供了一个起点。我们描述了我们的收集努力,以创建芬兰聊天语料库FinChat,这是公开提供。FinChat 包括来自不同年龄段的人的七个主题的无脚本对话。利用这个语料库,我们还构建了芬兰聊天机器人开发的基于检索的评估任务。我们观察到,接受过对话下士训练的现成聊天机器人模型在根据自动指标选择正确答案方面的表现并不比偶然好,而人类几乎可以完美地完成同样的任务。同样,在人工评估中,对聊天机器人生成的评估集中的问题的回答主要被标记为不连贯。因此,FinChat 提供了一套具有挑战性的评估集,旨在鼓励芬兰语聊天机器人的发展。

END

发表评论

猜你喜欢