月曜日, 2月 05, 2007

[Search] Nutch+Hadoop

NDFSというらしい(?)が,NutchをHadoop上で動かすためのチュートリアルが出ていた.

このチュートリアルで知ったのだが,HadoopとはファイルシステムにMapReduceを持ち込んで分散ファイルシステムつくるアプリケーションだったんですね..

MapReduceのやりたいことは分かるけれど,分散コンピューティングで難しいのは結局その計算を如何に(並列処理できるように)ばらせるかというところのわけで...その(分散させることを)考えるフレームワークとしてはすばらしいのかな.

英語だがMapReduceの観点からNutchを語っている記事も見つけたので,ちゃんと読んでみないと..

0 件のコメント: