arcanum_jp’s blog

おっさんの日記

日本語形態素解析

 ブログパーツを作りたいんだけど、パーツを貼ったブログの内容を解析してナニナニする感じのものなので、何が必要なのかと思い調べているところ。

日本語文を形態素に分割し、品詞、読みがなの付与、統計情報を取得できる機能を提供します。

http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html

形態素解析ライブラリ-Senの導入〜アプリ連携API (4)

そこで今回、形態素解析を行うためにSenという100% Pure Javaのライブラリを使用することにした

形態素解析ライブラリ-Senの導入〜アプリ連携API (4) - 横浜・東京B級グルメ日記

MeCab (和布蕪)とは
MeCab京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジンです. 言語, 辞書,コーパスに依存しない汎用的な設計を基本方針としています. パラメータの推定に Conditional Random Fields (CRF) を用いており, ChaSenが採用している隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します. ちなみに和布蕪(めかぶ)は, 作者の好物です.

http://mecab.sourceforge.net/