CJKAnalyzer

Sen 使わなくても Lucene Sandboxの「Analyzers, Tokenizers, Filters 」にある
CJKAnalyzer で十分日本語検索対応できるね。
単純な2文字ずつのぶった切りなので、一文字の検索は出来ないけど。
特に速度も問題ないし。(半角カタカナは検索できないけど)


でも Sen でも半角カタカナはダメですね。
Sen はぶった切った後に、漢字の読み方とか、品詞の種類等が
分かるので、色々面白い用途に使えそうですよね。
また、辞書使っているので日本語として正しいぶった切り方です。