flags Reid Pryzant

JESC

Japanese-English Subtitle Corpus
English | 日本語

About
2019年5月12日 -- 新バージョン -- 重複排除, もう少しきれい

JESCは、機械翻訳、情報抽出及びその他の言語処理技術の研究開発をサポートするために構築されました。

JESCは、スタンフォード大学、グーグルブレイン、RITの共同研究開発による成果であり 、インターネット上からクロールされた映i画とTV番組の字幕データを日英対応させることで構築されています。JESCは、自由に利用できる日英対訳コーパスの中で最大規模のコーパスであり、既存のコーパスではあまり扱われてこなかった口語の対訳も対象しています。

このデータセットを作るために使われたスクリプト、ツール、及びクローラーは、ここからダウンロードすることができます。

このデータはクリエイティブ・コモンズ (CC) ライセンスの下で提供されています。

Contents
  • 280万文から構成される大規模対訳コーパス。
  • 俗語、口語、説明文、物語解説の対訳。これらは既存のコーパスではあまり扱われてこなかった分野です。
  • 前処理済みの、トークン化された訓練/開発/評価データ。
  • 自作クローラの作成用のコードと、MTデータを処理するためのツール。


 
内容 対訳文
全データ 2,797,388
訓練データ 2,801,388
開発データ 2000
評価データ 2000

Download

引用
@ARTICLE{pryzant_jesc_2018,
   author = {{Pryzant}, R. and {Chung}, Y. and {Jurafsky}, D. and {Britz}, D.},
    title = "{JESC: Japanese-English Subtitle Corpus}",
  journal = {Language Resources and Evaluation Conference (LREC)},
 keywords = {Computer Science - Computation and Language},
     year = 2018
}