서브상단 글자

학술대회발표논문집

한국일본학회 학술대회,, (2018)
pp.176~182

タイトル:『国語研日本語ウェブコーパス』とその検索系『梵天』

浅原正幸

(人間文化研究機構 国立国語研究所 コーパス開発センター 准教授)

Title : `NINJAL Web Japanese Corpus’ and Its Search System `BonTen’

Masayuki ASAHARA

(人間文化研究機構 国立国語研究所 コーパス開発センター 准教授)

The National Institute for Japanese Language and Linguistics, Japan (NINJAL) compiled a web corpus for linguistic research comprising 25 billion words. The project is divided into four parts: page collection, linguistic analysis, development of the corpus concordance system, and preservation. This article presents a corpus concordance system named `BonTen', which enables a ten-billion-scaled corpus to be queried by string, a sequence of morphological information or a subtree of the syntactic dependency structure.

浅原正幸

(人間文化研究機構 国立国語研究所 コーパス開発センター 准教授)

国立国語研究所は言語研究に資する258億語規模のウェブコーパス『国語研ウェブコーパス』を構築した.コーパスの 構築は,ページ収集・言語解析・保存・検索系の構築の4種類の部分工程からなる.本発表では,『国語研ウェブコーパ ス』を概説するとともに,その検索系である『梵天』の機能について紹介する.この検索系は100億語規模のテキストコー パスを文字列のみならず,形態素列・係り受け部分木に基づく問い合わせが可能である.

Download PDF list