MEDDOCAN语料库:西班牙临床病例报告医学文献匿名化的黄金标准注释免费

Khan 29 2021-08-24 NLP

资源介绍

临床记录不能“按现状”直接共享。在医院之外访问临床记录的一个必要前提是删除或彻底删除/替换所有提到的与隐私相关的受保护的健康信息短语。为自动匿名化工具提供适当的评估场景是批准数据重新分发的关键。目前,建立人工去识别的医疗记录是限制临床数据二次使用的主要费率和成本步骤。本文总结了在西班牙语医学文献匿名上的第一个共享跟踪MEDDOCAN (medical Document Anonymization)跟踪的设置、数据和结果。该专题依赖于精心构建的临床病例文档合成语料库MEDDOCAN语料库,遵循基于欧盟通用数据保护法规分析的敏感数据注释指南。总共有18个团队(来自51个报名)提交了63个第一分道1和61个系统第二分道。得分最高的系统基于复杂的深度学习方法,所代表的策略可以显著减少访问包含隐私相关敏感信息的文本数据的时间和成本。该跟踪的结果可能有助于降低西班牙语language技术开发人员的临床数据访问障碍,也显示了使用其他语言或来自不同领域的数据进行类似设置的潜力

END

发表评论

猜你喜欢