NDFSというらしい(?)が,NutchをHadoop上で動かすためのチュートリアルが出ていた.
このチュートリアルで知ったのだが,HadoopとはファイルシステムにMapReduceを持ち込んで分散ファイルシステムつくるアプリケーションだったんですね..
MapReduceのやりたいことは分かるけれど,分散コンピューティングで難しいのは結局その計算を如何に(並列処理できるように)ばらせるかというところのわけで...その(分散させることを)考えるフレームワークとしてはすばらしいのかな.
英語だがMapReduceの観点からNutchを語っている記事も見つけたので,ちゃんと読んでみないと..
0 件のコメント:
コメントを投稿