研究论文中锚定的信息寻求问题和答案数据集免费

Khan 29 2021-08-24 NLP

资源介绍

学术研究论文的读者经常阅读,目的是回答具体问题。能够回答这些问题的问题的回答系统可以使内容的消耗更加高效。但是,构建此类工具需要数据来反映论文多个部分的索赔复杂推理所产生的任务的难度。相比之下,现有的信息寻求问题回答数据集通常包含有关一般事实类型信息的问题。因此,我们提出了QASPER,一个数据集,其中涉及1,585篇自然语言处理论文中的5,049个问题。每个问题都由 NLP 从业者编写,该实践者只阅读相应论文的标题和摘要,并且问题寻求全文中的信息。然后,由一组单独的 NLP 从业者回答这些问题,他们也为答案提供支持性证据。我们发现,在其他 QA 任务上表现良好的现有模型在回答这些问题时表现不佳,在从整篇论文中回答这些问题时,至少比人类差 27 F1 点,从而推动了对基于文档、寻求信息的 QA 的进一步研究,而我们的数据集旨在促进这些问题。

END

发表评论

猜你喜欢