http://nwjc-data.ninjal.ac.jp/ NWJC related files

NINJAL Web Japanese Corpus

以下のデータは、次のライセンスのもとに利用が許諾されています。

n-gram data

all frequency

cut off less than 3

Misc

以下のデータは各機関の依頼に基づき国立国語研究所内で作成したものです。依頼を受けて作成したデータはオープンデータとして公開することを了承していただいております。

List of Compound Verb

for Ritsumeikan University

「御」+*+「為る」+*

for Osaka University

NWJC2vec

引用は以下のものをお願いします:

@Article{nwjc2vec,
author =  {Masayuki Asahara},
title =  {{N}{W}{J}{C}2{V}ec: {W}ord embedding dataset from `{N}{I}{N}{J}{A}{L} {W}eb {J}apanese {C}orpus'},
journal =  {Terminology: International Journal of Theoretical and Applied Issues in Specialized Communication},
year =  {2018},
volume =  {24},
number =  {2},
pages =  {7--25},
month =  {Feb.}
}

以下のファイルはパスワードをかけております。 名刺を1枚「〒190-8561 東京都立川市緑町10-2 コーパス開発センター浅原正幸」宛にNWJC2vec をお求めの旨を添えて送っていただければパスワードをお知らせいたします。

Password-protected. Please send e-mail to コーパス開発センター 浅原正幸 nwjc-admin -at- ml.ninjal.ac.jp to access the files.

配布 DVD-Rに採録されているもの

fasttext によるモデル