arcanum_jp’s blog

おっさんの日記

Sen Tokenクラスのメソッド

 形態素解析ライブラリ「Sen」は文章を解析後Tokenクラスのリストにアクセスできるけど、このTokenクラスの主要メソッドについて書いているページが見つからなかったのでメモ。以下、メソッドを実行しながらのメモなので間違っているかもしれないのはご愛嬌。

Tokenクラスのメソッド
メソッド名 説明 辞書データの位置
getAddInfo( ) 追加情報。よくわからない -
getBasicString( ) 基本形。動詞なら「使う」と言った形式。 -
getCform( ) 連用形とか、Cformはconjugational formの略らしい。 8列目。
getCost( ) 単語の発生のしやすさ。 2列目
getPos( ) 品詞情報を取得。品詞、品詞細分類1〜3を'-'で結合して出力 3〜6列目
getSurface( ) 解析した文章上にあった語句。 -
getTermInfo( ) 辞書データの3列目以降をカンマで連結したもの。CSVそのまんま 3〜11列
getReading( ) 読み。 10列目
getPronunciation( ) 発音。 11列目
実際の例:「今度遊びに行くね」を解析した中の「行く」との対比

 辞書データでは「行く」周辺は以下のようになっている。

dic.csv

見出し語 コスト 品詞 品詞細分類1 品詞細分類2 品詞細分類3 活用形 活用型 原形 読み 発音
行く 79 動詞 自立 * * 五段・カ行促音便 基本形 行く イク イク
行か 79 動詞 自立 * * 五段・カ行促音便 未然形 行く イカ イカ
行こ 79 動詞 自立 * * 五段・カ行促音便 未然ウ接続 行く イコ イコ

実際の出力

メソッド名 説明
getAddInfo( ) なし
getBasicString( ) 行く
getCform( ) 基本形
getCost( ) 0
getPos( ) 動詞-自立
getSurface( ) 行く
getTermInfo( ) 動詞,自立,*,*,五段・カ行促音便,基本形,行く,イク,イク
getReading( ) イク
getPronunciation( ) イク
  • getAddInfo( )は、無い、''が出力される。
  • getPos( )は品詞と品詞細分類1のみなので'動詞-自立'となる。