chaki setup-nlp-seminar090930

Post on 24-May-2015

1.021 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ChaKi.NETでコーパスを検索するまでの流れ

• ChaKi.NETのインストール

– 環境によっては.NET Frameworkのインストールを求められることがあります

• テキストファイルをChaKi.NETにインポートできる形式に変換

– あらかじめMeCabとCaboChaをインストールしておいてください

• コーパスをインポート(データベースファイル作成)

• データベースファイルを検索対象として指定

1

ChaKi.NETのインストール

2

Setup.msiをダブルクリックして実行します

3

セキュリティの警告が出ることがあります。「実行」をクリック

4

「次へ」をクリック

5

「次へ」をクリック

6

「次へ」をクリック

7

しばらくお待ちください

8

「次へ」をクリック

9

テキストファイルをChaKi.NETにインポートできる形式に変換する

10

11

ChaKi.NETにインポートしたいテキストファイルを用意します。

ここでは例として、c:¥NAISTにインストールされているhana.txtを使用します。

12

このような、生のテキストです

TextFormatterをダブルクリックして実行します

13

14

変換したいテキストファイルをTextFormatterのウィンドウにドラッグ&ドロップします

15

すると自動的にファイル名が入力されます

変換結果格納ファイル名について

• 格納先ファイル名は、変換元ファイル名の拡張子を”.mecab”および”.cabocha”で置き換えたものになります

• 「参照」ボタンをクリックすることで格納先ファイル名を変更できますが、必ずそれぞれ”.mecab”と”.cabocha”で終わるファイル名としてください

16

変換元: c:¥NAIST¥hana.txt格納先(MeCab): c:¥NAIST¥hana.mecab格納先(CaboCha): c:¥NAIST¥hana.cabocha

「変換」ボタンをクリックすると変換処理が始まります。

しばらくお待ちください。

17

18

変換が完了しました。

19

これらが出力されたファイルです

コーパスのインポート

変換結果ファイルからデータベースファイルを作ります

20

Chaki.NETを実行します

21

メニューからCreate SQLite Corpus をクリック

22

Input File の 「Browse...」をクリック

23

24

C:¥NAISTに移動し、hana.cabochaを選択して「開く」をクリック

MeCabファイルをインポートする場合には、「ファイルの種類」を「MeCab files」にしてか

ら.mecabファイルを選択します

25

Input Character Code: UTF-8Input Type: Mecab|Cabocha

とします。

TextFormatterの出力文字コードはUTF-8です。

Output DBの「Browse...」をクリック

26

出力されるデータベースファイル名を指定します。ここではhana.dbと入

力して「開く」をクリック。

27

「Launch」 をクリック

28

29

しばらくお待ちください。変換が完了したら、Enter

キーを押してこのウィンドウを閉じます。

出力されたデータベースファイル

Create SQLite Corpus のウィンドウはもう閉じて構いません

30

データベースファイルを検索対象として指定する

31

Corpusタブの「Add...」ボタンをクリック

32

33

先ほど作成したデータベースファイルを指定して「開く」

検索対象 Corpus List に追加されました

34

top related