JESC

Japanese-English Subtitle Corpus

English | 日本語

About

２０１９年5月12日 -- 新バージョン -- 重複排除, もう少しきれい

JESCは、機械翻訳、情報抽出及びその他の言語処理技術の研究開発をサポートするために構築されました。

JESCは、スタンフォード大学、グーグルブレイン、RITの共同研究開発による成果であり、インターネット上からクロールされた映i画とTV番組の字幕データを日英対応させることで構築されています。JESCは、自由に利用できる日英対訳コーパスの中で最大規模のコーパスであり、既存のコーパスではあまり扱われてこなかった口語の対訳も対象しています。

このデータセットを作るために使われたスクリプト、ツール、及びクローラーは、ここからダウンロードすることができます。

このデータはクリエイティブ・コモンズ (CC) ライセンスの下で提供されています。

280万文から構成される大規模対訳コーパス。
俗語、口語、説明文、物語解説の対訳。これらは既存のコーパスではあまり扱われてこなかった分野です。
前処理済みの、トークン化された訓練/開発/評価データ。
自作クローラの作成用のコードと、MTデータを処理するためのツール。

内容	対訳文
全データ	2,797,388
訓練データ	2,801,388
開発データ	2000
評価データ	2000

Download

引用

@ARTICLE{pryzant_jesc_2018,
   author = {{Pryzant}, R. and {Chung}, Y. and {Jurafsky}, D. and {Britz}, D.},
    title = "{JESC: Japanese-English Subtitle Corpus}",
  journal = {Language Resources and Evaluation Conference (LREC)},
 keywords = {Computer Science - Computation and Language},
     year = 2018
}

JESC

Japanese-English Subtitle Corpus

About

Contents

Download

引用