水曜日, 2月 28, 2007

[Linux] 日本語Eclipse

Solrのためにjavaに手を出すしかなくなり(これまでjavaは学生バイトで使ったことがあったくらい≒メモ帳で書いてた),Eclipseに手を出すしかなくなった..
"MergeDoc Project"で配られているプラグインを指定して日本語化して利用中.

火曜日, 2月 27, 2007

[google] C-Store

googleが使っているデータベース(というかデータストレージ)がbigtableというのは周知だと思われますが,これにインスパイアされて作られているアプリケーションがあるそうです(記事).

C-Store

よく分からないですが,カラム指向(PostgreSQLなど一般的なRDBMSはデータを入れると行が増えてゆくロー指向)というのがすごいらしく,また,MITのプロジェクトであることも夢を感じます(作者がwikipediaに載ってました)..

月曜日, 2月 26, 2007

[google] MonetDB

MonetDBというのもあるらしい(SFのページはこちら).日本語の情報もあった.

XML-DBの関連なのかな.まだよくわからない.

日曜日, 2月 25, 2007

[Linux] findでファイル削除

よく忘れるのでメモ.
clipped from www.atmarkit.co.jp
% ssh サーバ 'find ディレクトリ名 -type f -mtime +7 -exec rm -f {} ;'
 blog it

注意として、ディレクトリ名のところはシンボリックリンクではだめなようです(例えば"/mnt/tmp"を実態として"/var/tmp"をリンクとしている場合は"/mnt/tmp"と指定する必要がある)。あと、同様のことをやるには下記もありですね。
sudo find / -mtime +10 -type f | sudo xargs -n 10 rm --

ちなみにxargsの"-n"引数は、その個数分(STDINから)入力されるたびにそれを引数としてコマンド(ここではrm)を実行してくれるようにするオプション。

金曜日, 2月 23, 2007

[Linux] vimでバイナリ編集

kawaz.jpにあるvimのコマンド一覧に書いてある方法で、RHEL4にてバイナリモードで開くことに成功。便利ですね。

また、あまりにでかいファイルをバイナリ編集するにはコノページが参考になりそうですが、なんかバイナリを壊してしまうようでうまくいきませんでした。。。(tailコマンドとかって改行変換しちゃうのかな)。

木曜日, 2月 22, 2007

[Linux] SVN::Webしたい

入れてみようと苦戦中(SVN::Webいいねコレ).

SVN::Coreというモジュールに依存していて,まずこれがCPANじゃ取れない.

調べて結局subversion本体の中にあることが分かったので,rpmを探し,EC2(FC4)の場合はyumでsubversion-perlという名前で入るそうなので入れてみた.

のだけど,でも今のSVN::Web(v0.52)にとっては古すぎるらしいので,subversionを最新版にしてSVN::Coreも作ろうとしたけど,今度はaprとapr-utilの両方が(FC4の0.9.6では)古すぎた.

というわけでapr系2個をコンパイルしてやっと本体へ.

コンパイルは終了したが,今度は非rootだとapacheモジュールのインストール時点で"make install"がコケる(--disable-mod-activationとしてもだめだった).

というわけでMakefileにある"APACHE_LIBEXECDIR"を書き換えて変なところへインストールさせてやっと完了..

先は長い.

月曜日, 2月 19, 2007

[search] Y!CodeSearchはLucene

Yahoo!コードサーチの検索エンジンは,なんとLuceneベースのKrugleだそうな(元ネタ).頼もしいことではあるけれど,何故(検索エンジン業者の)Y!を持ってして・・・?

日曜日, 2月 18, 2007

[search] Luceneのblog(英語)

Luceneのネタだけを綴ったブログを発見.apacheComなどの情報もまとまっていてちゃんと読みたい.

土曜日, 2月 17, 2007

[Linux] Winstone

Tomcatなどと同様のサーブレットエンジンで非常にサイズが小さく動作が快適.sfにプロジェクトがある

こちらでの紹介されていますが,この時点(v0.7で現在最新はv0.9.6)で155kというのは魅力か.

でもjspは動かないらしい(他のと組み合わせればいけるのでしょうが)ので,その用途には不向きな反面,Solrを動かすために使うなど面白そうですね.

追伸:
winstoneでは(Solr自身は立ち上がるのだけど)どうしてもSenを見つけてくれない.JapaneseAnalyzerがエラー...何故?

金曜日, 2月 16, 2007

[Linux] Quercus

またMYCOMから仕入れたネタですが,Resinというサーブレットエンジンには,PHPを稼動させることが出来るQuercusというPHPプロセッサが載っているらしい.

mod_phpよりも高速であり、PHPのパフォーマンス・アクセラレータを適用した場合に匹敵した性能。


本当かどうか不明ですが,PHPはアクセラレータ(eAccerelator)を入れても1.5倍の速度を稼ぐのがよいとこだった経験があるので,,ちょっと調べてみたいです.

火曜日, 2月 13, 2007

[Life] proxomitron

MYCOMで紹介されているくらいだから,結構有名だと思うのだけど,PC側に入れて広告画像等を表示しないように加工してくれるProxyソフトらしい.

月曜日, 2月 12, 2007

[search] インデクスブラウザ(for Lucene)

LIMOというやつが,v2.0系インデクスに対応している様子!

日曜日, 2月 11, 2007

[search] Solrお試し2

Solrには,JapaneseAnalyzerが入っていない.今はSolrのexampleで試しているので,そこのwebapp内にあるsolr.warを展開し(warは普通のZIPファイルだから,拡張子を".zip"にして展開できる),中のWEB-INF\libにlucene-ja.jarとsen.jarを入れ込んだ.

jar cvf ..\solr.war .\


warを作りなれている人には当たり前かもしれないけれど,展開したディレクトリに入ってjarしないとディレクトリ構成が当初と変わってしまうので注意.あと,環境変数にSEN_HOMEを指定していたとしても何故か効かないので,起動時に引数として与える必要がある.

java -Dsen.home=d:\Solr\sen -jar start.jar


これでインデクス時には問題が出なくなったけれど,どうもexampleにあるadmin画面では検索に引っかからない..何故?

Solr(というかLucene)のインデクスをダンプするツールなどは無いものだろうか.Lukeというインデクスブラウザがあったようだが,使い方がよく分からない.それに(Luceneライブラリが)v1.9対応のようだし・・.

土曜日, 2月 10, 2007

[search] Solrお試し

SolrチュートリアルをWindowsでやってみた.

ドキュメント登録はhttpでPOSTしなくてはならないらしい(post.shより)ので,cURLのWindows版を取ってきて以下のようにした.


d:\Solr\curl\curl.exe --data-binary @hd.xml -H "Content-type:text/xml; charset=utf-8" http://localhost:8983/solr/update
~snip~
d:\Solr\curl\curl.exe --data-binary @vidcard.xml -H "Content-type:text/xml; charset=utf-8" http://localhost:8983/solr/update
d:\Solr\curl\curl.exe --data-binary "<commit/>" -H "Content-type:text/xml; charset=utf-8" http://localhost:8983/solr/update

d:\Solr\curl\curl.exe --data-binary "<delete><id>3007WFP</id></delete>" -H "Content-type:text/xml; charset=utf-8" http://localhost:8983/solr/update

いちおう検索は出来ている様子.これに日本語を通さないとね.

追伸:
 韓国ではLuceneがブームなんですね.

追伸2:
 ちなみにcurlでproxyを使うときは"-x localhost:8080"みたいなオプションで。

金曜日, 2月 09, 2007

[Linux] PostgreSQLの特徴2

とりあえず,カーソルというのを使う場合は実行計画をキャッシュするらしい.でも接続間の共有はしないんだろうなぁ.

木曜日, 2月 08, 2007

[Linux] PostgreSQLの特徴

DBがよく分からない.ので勉強をしようとしているのですが何から手をつけてよいやら.
とりあえずPgSQLには,ロールバックセグメントという概念はないらしい

MVCCという,皆で使った場合のバージョン管理を(オラクルはロック式なところを)PgSQLでは追記型で凌いでいる,と.

ところで,PgSQLには実行計画キャッシュの実装は無い・・のですね.まぁいまの私たちの利用レベルではいらないようですが.

水曜日, 2月 07, 2007

[Linux] netstatよりlsof

lsofってやはり便利なんですね.netstatよりよほど直感的で情報量も豊富().

ちなみに,Windowsで同様にポートを開けているプロセスを知りたい場合は,FPortというのがよいらしいです.

火曜日, 2月 06, 2007

[Linux] rPath

rPathというLinuxのディストリビューションがあるらしい.たまたまAMIを調べていたら見つけたのだが,主にRed Hatの元社員で構成される企業とのこと

特徴はConaryというパッケージ管理システムを採用しており,これにより「Linuxディストリビューション全体をカスタマイズ可能にし、(最低限の労力で)企業内での利用やニッチ市場に対応させられる」らしい.

いまいち凄さが分かりませんが,たとえばEC2インスタンスを上げたまま,そのスナップバックアップが取れるなんてなったら素晴らしいのに.

月曜日, 2月 05, 2007

[Search] Nutch+Hadoop

NDFSというらしい(?)が,NutchをHadoop上で動かすためのチュートリアルが出ていた.

このチュートリアルで知ったのだが,HadoopとはファイルシステムにMapReduceを持ち込んで分散ファイルシステムつくるアプリケーションだったんですね..

MapReduceのやりたいことは分かるけれど,分散コンピューティングで難しいのは結局その計算を如何に(並列処理できるように)ばらせるかというところのわけで...その(分散させることを)考えるフレームワークとしてはすばらしいのかな.

英語だがMapReduceの観点からNutchを語っている記事も見つけたので,ちゃんと読んでみないと..

日曜日, 2月 04, 2007

[Linux] MoinMoin

apacheプロジェクトで使っているwiki(のエンジン)は,MoinMoinというやつなんですね.

でもwikipediaで調べても,コレと言った特徴が無さそうな気がするのですが,なんで使われているのかな..

土曜日, 2月 03, 2007

[WEB] Zirr.us

前どっかでみて気になっていた個人タスク管理ウェブZirrusが日本語入力可能になりました.

優先度がスライドバーで簡単に設定でき,また,ToDoをタグクラウドで表現してるし,無論RSSフィードもあるし...ちゃんと使ってみたいと思っています.

金曜日, 2月 02, 2007

[Search] Nutch

Nutchという,裏にLuceneを使った検索エンジンパッケージのプロジェクトとが在るらしい
Luceneを調べていて行き着いたのだが(NutchはLuceneのサブプロジェクト),この手のものは企業内検索として実は最近(私の周りでは)ホットだったりする.

木曜日, 2月 01, 2007

[Linux] Gfarm

クラスタファイルシステムのネタとしてひとつ(日本でもありました).

産総研で開発されているGfarmというのがソレです.GoogleやHadoopとちがうところは,ファイル単位で操作をしようとしているところらしい...です.