讲座翻译是口语翻译的一个案例,因此缺乏为此目的公开的平行公司。为了解决这个问题,我们研究了一个语言独立的平行语料库挖掘框架,这是从Coursera的公开讲座中挖掘平行语料库的一种快速而有效的方法。我们的方法决定句子对齐,依赖于机器翻译和连续空间句子表示的同质相似性。我们还展示了如何在基于多阶段微调的域进行多阶段微调的域适应中使用生成的 corpora进行高质量的讲座翻译。对于日语-英语讲座翻译,我们提取了约40,000行的并行数据,并通过手动过滤创建开发和测试集,以测试翻译性能。我们证明,通过多阶段培训与域外并行语料库一起使用时,挖掘的语料库大大提高了翻译质量。本文还提出了一些准则,以收集和清洁公司,地雷平行句子,解决雷数据中的噪音,并创建高质量的评价分裂。为了可重复性,我们将发布并行数据创建代码。