COVID-19开放研究数据集免费

liying 16 2021-08-29 医疗图像

资源介绍

为了应对COVID-19大流行,艾伦AI研究所与领先的研究小组合作,准备并分发了COVID-19开放研究数据集(CORD-19),该资源免费提供了超过45,000篇学术文章,其中包括33,000篇有关COVID-19和冠状病毒家族的病毒的全文,供全球研究团体使用。

COVID-19开放研究数据集 (http://ds.jsai.org.cn/) 医疗图像 第1张

该数据集旨在动员研究人员应用自然语言处理方面的最新进展,以产生新的见识来支持与这种传染病的斗争。随着新研究的发表在同行评审的出版物和诸如bioRxiv,medRxiv等档案服务中,该语料库将每周更新。

CORD-19 Explorer是搜索CORD-19语料库的快速简便的方法,或者您可以从下面下载完整的数据。

参加CORD-19挑战赛

Kaggle主持了COVID-19开放研究数据集挑战赛,这是一系列重要问题,旨在激发社区使用CORD-19来寻找有关COVID-19大流行的新见解,包括该病毒的自然史,传播和诊断,人畜界面的管理措施,先前流行病学研究的经验教训等等。

下载CORD-19

下载此数据集即表示您同意数据集许可证。元数据文件中提供了数据集中各个文章的特定许可信息。

其他许可信息可在PMC网站,medRxiv网站和bioRxiv网站上找到。

数据下载:

最新版本包含截至2020-03-27的论文,超过33,000篇全文文章。(*来自先前版本的**变更日志**。)*

  • 商业用途子集(包括PMC内容)-9315全文(新:210,已删除:13)186Mb
  • 非商业用途子集(包括PMC内容)-2350全文(新增:6,已删除:9),41Mb
  • 自定义许可证子集(包括PMC,Elsevier内容)-20657全文(新:4218,已删除:520),414Mb
  • bioRxiv / medRxiv子集(未经同行评审的预印本)-1053全文(新增功能:194,已删除:26),15Mb
  • 元数据文件 -67Mb
  • 自述文件

每篇论文都表示为一个JSON对象。该架构在此处可用,而数据集的先前版本在此处可用。

描述:

数据集包含来自以下来源的所有COVID-19和与冠状病毒相关的研究(例如SARS,MERS等):

  • 使用此查询的 PubMed的PMC开放获取语料库(COVID-19和冠状病毒研究)
  • 世卫组织维护的语料库的其他COVID-19研究文章
  • 使用与PMC相同的查询进行bioRxiv和medRxiv的预印本(COVID-19和冠状病毒研究)

我们还提供了包含44,000个冠状病毒和COVID-19研究文章的综合元数据文件,并链接到PubMed,Microsoft Academic和WHO WHO COVID-19出版物数据库(包括没有开放获取全文的文章)。

我们建议使用综合文件中的元数据(如果有),而不是使用数据集中的已解析元数据。请注意,在有补充材料的情况下,数据集可能包含单个PMC ID的多个条目。

该存储库链接到WHO冠状病毒疾病出版物数据库和其他资源,例如Microsoft Academic Graph,PubMed和Semantic Scholar。由Chan Zuckerberg Initiative,乔治敦大学安全与新兴技术中心,Microsoft Research和美国国立卫生研究院国家医学图书馆组成的联盟共同提供了这项服务。我们也感谢并感谢Unpaywall为部分数据集提供了开放访问许可证信息。

引文:

在发布或重新分发中包括CORD-19数据时,请引用数据集,如下所示:

在书目中:

COVID-19 Open Research Dataset (CORD-19). 2020. Version 2020-03-20. Retrieved from https://pages.semanticscholar.org/coronavirus-research. Accessed YYYY-MM-DD. doi:``10.5281/zenodo.3715505

在文字中:

(CORD-19, 2020)

随着形势的发展和新研究的发布,艾伦人工智能研究所,尤其是语义学者团队将继续为该数据集提供更新。

END

发表评论