我们描述了德国联邦法院判决中为指定实体识别而开发的数据集。它包括大约67,000句子和超过200万个代币。该资源包含 54,000 个手动注释实体,映射到 19 个细粒度语义类:人员、法官、律师、国家、城市、街道、景观、组织、公司、机构、法院、品牌、法律、法令、欧洲法律规范、法规、合同、法院裁决和法律文献。此外,法律文件还自动注释了超过 35,000 个基于 TimeML 的时间表达式。该数据集以CONNL-2002格式的CC-BY 4.0许可证提供,用于在欧盟项目Lynx中为德国法律文件培训NER服务。