chaki setup-nlp-seminar090930
Post on 24-May-2015
1.021 Views
Preview:
TRANSCRIPT
ChaKi.NETでコーパスを検索するまでの流れ
• ChaKi.NETのインストール
– 環境によっては.NET Frameworkのインストールを求められることがあります
• テキストファイルをChaKi.NETにインポートできる形式に変換
– あらかじめMeCabとCaboChaをインストールしておいてください
• コーパスをインポート(データベースファイル作成)
• データベースファイルを検索対象として指定
1
ChaKi.NETのインストール
2
Setup.msiをダブルクリックして実行します
3
セキュリティの警告が出ることがあります。「実行」をクリック
4
「次へ」をクリック
5
「次へ」をクリック
6
「次へ」をクリック
7
しばらくお待ちください
8
「次へ」をクリック
9
テキストファイルをChaKi.NETにインポートできる形式に変換する
10
11
ChaKi.NETにインポートしたいテキストファイルを用意します。
ここでは例として、c:¥NAISTにインストールされているhana.txtを使用します。
12
このような、生のテキストです
TextFormatterをダブルクリックして実行します
13
14
変換したいテキストファイルをTextFormatterのウィンドウにドラッグ&ドロップします
15
すると自動的にファイル名が入力されます
変換結果格納ファイル名について
• 格納先ファイル名は、変換元ファイル名の拡張子を”.mecab”および”.cabocha”で置き換えたものになります
• 「参照」ボタンをクリックすることで格納先ファイル名を変更できますが、必ずそれぞれ”.mecab”と”.cabocha”で終わるファイル名としてください
16
変換元: c:¥NAIST¥hana.txt格納先(MeCab): c:¥NAIST¥hana.mecab格納先(CaboCha): c:¥NAIST¥hana.cabocha
「変換」ボタンをクリックすると変換処理が始まります。
しばらくお待ちください。
17
18
変換が完了しました。
19
これらが出力されたファイルです
コーパスのインポート
変換結果ファイルからデータベースファイルを作ります
20
Chaki.NETを実行します
21
メニューからCreate SQLite Corpus をクリック
22
Input File の 「Browse...」をクリック
23
24
C:¥NAISTに移動し、hana.cabochaを選択して「開く」をクリック
MeCabファイルをインポートする場合には、「ファイルの種類」を「MeCab files」にしてか
ら.mecabファイルを選択します
25
Input Character Code: UTF-8Input Type: Mecab|Cabocha
とします。
TextFormatterの出力文字コードはUTF-8です。
Output DBの「Browse...」をクリック
26
出力されるデータベースファイル名を指定します。ここではhana.dbと入
力して「開く」をクリック。
27
「Launch」 をクリック
28
29
しばらくお待ちください。変換が完了したら、Enter
キーを押してこのウィンドウを閉じます。
出力されたデータベースファイル
Create SQLite Corpus のウィンドウはもう閉じて構いません
30
データベースファイルを検索対象として指定する
31
Corpusタブの「Add...」ボタンをクリック
32
33
先ほど作成したデータベースファイルを指定して「開く」
検索対象 Corpus List に追加されました
34
top related