社会科学应用中的自动事件提取通常需要语料库级评估:例如,对元数据进行文本预测聚合,对召回进行公正的估计。我们将语料库级别的评估要求与真实世界的社会科学环境相结合,并介绍了《印度警察事件语料库》,这些语料库来自《印度时报》1,257篇关于2002年3月古吉拉特邦事件的文章,共21,391句。我们训练有素的注释员阅读并标记每份文件,以便提及警察活动事件,从而允许进行公正的召回评估。与其他具有结构化事件表示的数据集不同,我们通过提出自然问题来收集注释,并评估三种不同任务的现成模型:句子分类、文档排名和目标事件的时间聚合。我们介绍基于零拍摄 BERT 的模型的基线结果,这些模型根据自然语言推理和通道检索任务进行了微调。我们新颖的语料库级评价和注释方法可以指导未来类似社会科学资源的创造。