癌症仍然是全世界主要的死因之一,对医疗保健产生了相当大的影响。临床和分子肿瘤学科学界最近的研究努力能够大大提高某些癌症类型的患者的预期寿命。目前大多数癌症诊断主要由病理学实验室确定,为指导癌症患者的治疗提供了重要的信息来源。病理学观察基本上是活检或手术后细胞或组织进行微观或宏观研究的结果。临床医生和研究人员都要求系统自动检测、读取和生成病理学检查的结构化数据表示。由此产生的结构化或编码的临床信息,使用ICD-O或SNOMED-CT等受控词汇进行规范化,对于大规模分析特定肿瘤类型或确定对特定治疗或预后的反应至关重要。文本挖掘和NLP方法在将医学文本转化为有用的临床信息方面显示出了良好的效果,弥合了临床信息自由文本和结构化表示之间的差距。然而,在癌症文本挖掘方法方面,大多数努力都集中在英文医疗记录上。此外,由于肿瘤学专家以前大多数努力都缺乏高质量的手动标记临床文本,即使英语主要依靠定制的名称或规则词典来识别临床概念的提及,尽管先进的深度学习技术取得了可喜的成果。为了解决这些问题,我们在 IberLEF 2020 组织了坎特米斯特 (CANcer TExt 采矿共享任务) 轨道。它代表了社区评估和促进资源开发的第一个社区努力,用于命名实体识别、概念规范化和临床编码,专门侧重于西班牙语中的癌症数据。对参与系统的评估是使用坎特米斯特语料库完成的,该语料库是一个可公开访问的数据集(以及注释一致性分析和指南),其中手动注释提及肿瘤形态实体及其地图到西班牙版的ICD-O。我们共收到 121 个系统或来自 25 个团队的运行,用于三个食堂子任务之一,获得了非常有竞争力的结果。大多数参与者实施了复杂的人工智能方法;主要是基于长期记忆单元和语言模型(BERT、BETO、RoBERTa 等)的深度学习算法,具有有条件随机场等分类器层。除了使用预先训练的语言模型外,还探讨了单词和字符嵌入。