土曜日, 3月 31, 2007

[OSS] Flashも

ずいぶん前の記事ですが,FlashにもOSSの波が来ていたのですね.最近まったくこっちを見ていなかったのでちょっとショックでした.

金曜日, 3月 30, 2007

[Linux] I/O待ち?

I/O性能が悪いのかどうか判断するためのまとめページ.情報が揃っててよいです.

木曜日, 3月 29, 2007

[EC2] ディスクについて

FC4のpublicAMIを使っているのですが,ディスク割りが微妙ですね..

[tf0054@domU-12-31-XX-00-03-A8 tmp_20070328a]$ df -H
Filesystem Size Used Avail Use% マウント位置
/dev/sda1 11G 5.6G 4.5G 56% /
none 892M 0 892M 0% /dev/shm
/dev/sda2 158G 3.8G 146G 3% /mnt
[tf0054@domU-12-31-XX-00-03-A8 tmp_20070328a]$ ls -la

バックアップデータが溢れるまで"/"に11Gしか割り当てられていないことに気が付きませんでした../var/tmp以下をとりあえず"/mnt"以下へのリンクに書き換えて対応しました.

> sudo mkdir tmp
> sudo chmod 1777 tmp

水曜日, 3月 28, 2007

[search] Lire

Luceneにて画像検索を行うLireというプロジェクトがありました!すごい.

火曜日, 3月 27, 2007

[Linux] tarでのディレクトリコピー

意外に忘れるのでメモ.
clipped from www2.odn.ne.jp
  • カレントディレクトリの下のworkディレクトリ以下の全てのファイルを/tmpにコピーする。
    hogehoge% tar cf - ./work | (cd /tmp; tar vxf -)

  • powered by clipmarksblog it

    月曜日, 3月 26, 2007

    [service] zamzar

    こちらで紹介されているが、ファイル形式を変換するZamzarというサービスがある。出張先のホテルからなどであれば活用できる?でもgmailで相当な変換(toHTML)はできるけど。

    土曜日, 3月 24, 2007

    [Report] へた円グラフ

    手書き味の円グラフを作るソフトべつやくメソッドクリエーター(BMCreator).とってもかわいい.プレゼンの味としてよい.

    金曜日, 3月 23, 2007

    [EC2] Powerset

    Powersetというところは,EC2を400ノード上げ,かつS3をストレージに使い,自然言語による検索エンジンをやっているとのこと(出所はhadoopのwiki).

    なんだけどPowersetのページにいっても,実用できないような気がする.どこで公開しているのかな.

    木曜日, 3月 22, 2007

    [Linux] Synergy

    複数台のLinuxやPC,Macを使っている人は必見のアプリ(Synergy).専用HWを用意せずともOSが動いている前提なるもキーボードやマウスを切り替えて使える.

    水曜日, 3月 21, 2007

    [search] Quintura.com

    クラスタリング検索といっても,見せ方が大事なんだな,と(当たり前ですが)再認識させてくれるサイトQuinturaがありました.

    ダイナミックドリルダウンという手法は各所で取り入れられてきていますが,その次が出ない感じがしています.

    火曜日, 3月 20, 2007

    [Linux] puppet

    puppetという各種設定ファイルのサーバ群における管理ツールがあるらしい(この認識はあっているのかな).いぜんはてなさんの情報で,同様のなんとかTowerというのが良いと聞いたがそれとタメを張るものだろうか.

    以前はCfengineというのの記事を読んだことがあるのだけれど,それよか抽象度を上げて設定ファイルを書けることがすばらしいとのこと.

    mizzy.orgさんのところには結構puppetの情報がまとまっていそうなので参考にしたいです.

    月曜日, 3月 19, 2007

    [search] Written in java

    JAVAで書かれた全文検索エンジンが多数紹介されているページがありました.DBオフローディングを目指しての採用もありますし,この分野は商用的に最近熱いですね.

    日曜日, 3月 18, 2007

    [PostgreSQL] pg_bulkload

    pg_bulkloadなるものがNTTDさん作成で出来ているもよう(以前DWH系で近しいものが海外で出ていたような気がするけれど).

    WALをすっ飛ばしてかつIDX再構成のところを工夫することで,IDXをdropして投入後にcreateするよりも早いらしい(このロジックはよくわからない).

    オラクルとPgSQLの差異で,ダイレクトパスロードのことは実はよく話題になったりするので注目に値すると思います.最近NTTDさんはPgSQLではがんばっていますね.

    土曜日, 3月 17, 2007

    [PostgreSQL] 逆キーIDXと転置IDX

    逆キーとは、たとえばID:125というのにインデクスを張るとき、521とデータを逆さにしておいてカーディナリティを高めるやりかた。これと転置はまったく意味が異なる(今のいままで同じものと、なんとなく勘違いをしていました。おはずかしい)。

    追伸:
     形態素解析含め、全文検索系の情報はこちらが詳しい。

    金曜日, 3月 16, 2007

    [Linux] Scalix

    Scalixというよさげなグループウェアがあるらしい.ウェブメール機能がベースのようですが,サイボウズに食われすぎているこのドメインでオープンソースがどこまで行けるか,興味があります.

    木曜日, 3月 15, 2007

    [PostgreSQL] GINとGiST

    GiSTは"Generalized Search Trees"であり転置(Inverted)とは直接関連しなさそう。
    GIN(リンク先がpdfなので注意)は"Generalized Inverted Index"の略であり、これはv8.2の全文検索に使われているらしい。GiSTとは"汎用"というところで近しいだけ?

    水曜日, 3月 14, 2007

    [Linux] Scapy

    Scapyというpythonで作られたパケット生成プログラムがあるらしい.変なパケットをつくって当ててみる実験とか,,するひまが欲しいなぁ.

    日本語での情報もちらほら

    火曜日, 3月 13, 2007

    [Linux] MetaVNC

    MetaVNCという,Xのリモートデスクトップがあるようです.これまでのVNCはデスクトップ(と言っていいのかな)まるごとPCに持ってくるイメージですが,これはxtermなどのwindow単位なのがすごい,,のだとか

    日曜日, 3月 11, 2007

    [search] SenとMeCab

    Luceneの日本語分かち書き(≒形態素解析?と書いていいのか?)はsenを使っていて,これはMeCabのJavaポートと言われる.がsenのホームページを見る限りMeCabのv0.77版ポートから進化していない様子..

    MeCabはv0.90以降でなにやら大幅な改変がなされている様子なので,,,やはりSWIG経由でMeCabを呼ぶ形に直したほうがよいのだろうか(直せるのかわからないけど).

    土曜日, 3月 10, 2007

    [search] ipadicとは2

    辞書共通化という話題もあるようだが,止まっている様子...

    プレゼン資料もみつけた(こちら).

    金曜日, 3月 09, 2007

    [search] ipadicとは

    結局よくわからないが,MeCabやSenで使っているipadicとはなんなのだろう.フリー辞書一覧にはCasen辞書として出ているものがそれにあたるのだろうが...

    IPAというからには情報処理推進機構のおさいふで作った辞書なのだと勝手に推測しているのだが.

    水曜日, 3月 07, 2007

    [search] MeCabの辞書

    辞書にはJUMANというのとIPAというのがあるらしく,比較をされた記事がありました.うーんよくよまないと何がなんだか...

    MeCabについて調べているので,この記事を書かれた方のページを"MeCab"で検索.いろいろ書かれていてすばらしいと思います!

    火曜日, 3月 06, 2007

    [search] 係り受け解析

    形容詞が結局どこにかかっているのか?ということを判定する機能のことみたい(wikipedia).確かにこういうことも考えないと,評判分析とかできないですね...

    でも形態素解析よかそうとう固まり具合が弱そうな(未開拓という意味でよいのですが).この分野のCabochaもgoogle工藤さんの作なのですね.

    日曜日, 3月 04, 2007

    [Linux] svn@http

    webdavを使ってsvnを公開する方法(FC4@EC2).
    • yumでmod_dav_svnをインストール
    • conf.d/subversion.confを設定(SVNParentPathには注意)

    当然だが昨今の会社におけるインターネット環境はhttpに制限されていたりするので,webdavの需要は逆に増えているのかも.

    土曜日, 3月 03, 2007

    [EC2] with LVS

    KLABさんなどがやられているLVS+DirectReturnなどを使って今風にウェブサーバの分散事例が紹介されていました.想像は難くないですが,実際にやって成功しているところがすばらしいです.

    「ファイルシステムとしてのクラスタ事例はいいのだけど,CPUパワーをクラスタリングできないの?」というスレッドで見つけました.

    EC2ですぐに問題になりそうな経路のセキュリティについてもOpenVPNで考慮している事例なので,その観点でも読む価値ありです.

    金曜日, 3月 02, 2007

    [Linux] Ldirectord

    これはHTTPやSMTPをプロトコルレベルで監視できるデーモンらしい.他にもありそうだがウルトラモンキー系で実績があるなら良いかもしれない.

    木曜日, 3月 01, 2007

    [search] Ferret

    フェレットとはLuceneに触発されて作られているRubyバインディング用のCで書かれたライブラリ(LuceneのRuby実装ではなさそう).