形態素解析ライブラリ「Sen」は文章を解析後Tokenクラスのリストにアクセスできるけど、このTokenクラスの主要メソッドについて書いているページが見つからなかったのでメモ。以下、メソッドを実行しながらのメモなので間違っているかもしれないのはご愛嬌。
Tokenクラスのメソッド
メソッド名 | 説明 | 辞書データの位置 | |||
---|---|---|---|---|---|
getAddInfo( ) | 追加情報。よくわからない | - | |||
getBasicString( ) | 基本形。動詞なら「使う」と言った形式。 | - | |||
getCform( ) | 連用形とか、Cformはconjugational formの略らしい。 | 8列目。 | |||
getCost( ) | 単語の発生のしやすさ。 | 2列目 | |||
getPos( ) | 品詞情報を取得。品詞、品詞細分類1〜3を'-'で結合して出力 | 3〜6列目 | |||
getSurface( ) | 解析した文章上にあった語句。 | - | |||
getTermInfo( ) | 辞書データの3列目以降をカンマで連結したもの。CSVそのまんま | 3〜11列 | |||
getReading( ) | 読み。 | 10列目 | |||
getPronunciation( ) | 発音。 | 11列目 |
実際の例:「今度遊びに行くね」を解析した中の「行く」との対比
辞書データでは「行く」周辺は以下のようになっている。
dic.csv
見出し語 | コスト | 品詞 | 品詞細分類1 | 品詞細分類2 | 品詞細分類3 | 活用形 | 活用型 | 原形 | 読み | 発音 | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
行く | 79 | 動詞 | 自立 | * | * | 五段・カ行促音便 | 基本形 | 行く | イク | イク | |||||||||||
行か | 79 | 動詞 | 自立 | * | * | 五段・カ行促音便 | 未然形 | 行く | イカ | イカ | |||||||||||
行こ | 79 | 動詞 | 自立 | * | * | 五段・カ行促音便 | 未然ウ接続 | 行く | イコ | イコ |
実際の出力
メソッド名 | 説明 | ||||
---|---|---|---|---|---|
getAddInfo( ) | なし | ||||
getBasicString( ) | 行く | ||||
getCform( ) | 基本形 | ||||
getCost( ) | 0 | ||||
getPos( ) | 動詞-自立 | ||||
getSurface( ) | 行く | ||||
getTermInfo( ) | 動詞,自立,*,*,五段・カ行促音便,基本形,行く,イク,イク | ||||
getReading( ) | イク | ||||
getPronunciation( ) | イク |
- getAddInfo( )は、無い、''が出力される。
- getPos( )は品詞と品詞細分類1のみなので'動詞-自立'となる。