arcanum_jp’s blog

おっさんの日記

Jericho Html Parser

 Jerichoを使って整形する場合はOutputDocumentクラスを使うけど、どうやら開始タグや終了タグなんかをいじるのは簡単だけど、内容をいじるのが難しそう。


 サンプルを見ても分かるように単純にSegmentの内容をいじるのではうまくいかず、各タグの開始位置や終了位置を把握していじる必要があるようだ。


 ElementクラスやSegment、Tagなど条件はそろっているのでどうやら自分がやりたいことを突き詰めるためには自前で整形しなくちゃいけないのかな・・・

 横幅を決めて出ない程度にHTMLを整形したいだけなのに・・・orz