月曜日, 12月 29, 2008

[Solr] 日本語解析には

cmecab-java、本当はMeCabをJavaから使うためのバインディング(本家のmecab-javaをSWIG使わず実装したもの)なのだけど、中にSolr用のファクトリクラスが含まれていることに注目すべし。
http://code.google.com/p/cmecab-java/

via kwout

Java記述がv1.6系向けで、まだv1.5系の場合は少し書き換えが必要になる(MecabExceptionで2つメソッドを消した/string型のisEmptyをnull比較に変更)のですが、なんとか無事Solr(v1.3)から使えるようになりました。

あ、あとMacでコンパイルする場合、Makefileが合わないのでシアノさんのページを見ながら書き換えること、また、標準Javaのエンコード指定が何故かSJISなので、"-D file.encoding=UTF-8"とする必要があります。

参考:ハタさんのブログ

日曜日, 12月 21, 2008

[life] ソースをハイライト

ブログにソースを張るときに。
http://uwanosora.xrea.jp/2008/06/web.html

via kwout

金曜日, 12月 19, 2008

[Solr] SpellCheckComponent

Solrには「もしかして検索」を実装するのに使えそうなSpellCheckComponentというコンポーネントがあるが、日本語は何故か使えない様子(出所はIBMの開発者向けページ/いつも質が高く関心する)。
Lukeで見るところ、SpellCheck用フィールドのトークナイザをMeCabにしているから、当然キチンとword及びstart3なんかにも、想定した切り方で入っているようだが。。
問題はクエリ側か?

参考:LingPipe, Wiki

日曜日, 12月 14, 2008

[Life] userchrome.jsの練習で

すばらしい先達。これから(も)勉強できそう。
clipped from www.code-404.net
Copy URL Lite+
 blog it

水曜日, 12月 03, 2008

[Life] XULの情報元!

Firefoxの拡張(userChromeのだけど)を改訂したくて、XULのチュートリアルを探していた。しかしそもそもマニアックなので書籍など期待できないな、と思っていたら、、、なんとウェブ上にとてもしっかりとした情報が公開されていました。
http://piro.sakura.ne.jp/xul/doc/tutorial/

via kwout

本当に、こういう活動には頭が下がります(しかし、本家のチュートリアルも日本語で充実してました。もう実は至れり尽くせり!?)。
あれ?でもFirefox2と3で少しは違うのかな。

火曜日, 12月 02, 2008

[S3] junglediskの次

CUIのツールを探していて、s3cmdが便利そう。pythonで書かれている。
http://s3tools.logix.cz/s3cmd

via kwout

"--configure"で設定ファイルを書くウイザードになる親切設計。

月曜日, 12月 01, 2008

[Linux] apacheの内部構造

1999年当時のものと古いですが、apacheの内部構造が説明された論文(?)を見つけました。
https://styx.uwaterloo.ca/~oadragoi/cw/CS746G/a2/acc.html

via kwout