该数据包含数千种有关常见医学症状(如“膝盖疼痛”或“头痛”)的语音,总计超过 8 个小时。每种语音都是由个体人类贡献者基于给定的症状所创建。这些音频片段可用于训练医疗领域的会话代理。
该Appen数据集通过多任务工作流而构建。首先是贡献者编写文本短语来描述给定的症状。举例来说,对于“头痛”,贡献者可以写成“我需要治疗我的偏头痛”。后续任务会捕获已被接受的文本字符串的语音。
该数据集包含音频语音和相应的转录文本。
此输入数据由症状提示组成。人工采标者基于这些提示创建他们的文本短语,然后在该工作流中随后的环节中所使用他们来采集语音。上方的“数据 (Data)”选项卡包含有更多信息,以及最终根据这些提示制作的录音数据。