土曜日, 11月 15, 2008

[Solr] Normとは

Normとはノルムと読み、(Luceneや)Solrでは、検索対象文章の重要度(例/一覧表示するときなど)を決める要素のこと。

たとえばLength-Nornとは「各単語が含まれている文章が長い場合と、短い文章である場合は、後者のほうが(その単語が)、当該文章において重要である(≒その文章の特徴をあらわすものである可能性が高い)」ということを表現する情報のこと。

これ以外に、各文書や(その中の)フィールドがそれぞれ指定されうるブースト値も、この中に含まれます。

なお、よく混同される単語にNormalize(ノーマライズ/Normってこの略かと思いがち)があり、これは広くは正規化処理のことで、こと検索エンジンの世界(?)では、文章を格納するとき(後で使いやすいよう)、半角カナ→全角カナ、だったり、全角アルファベットを半角のそれに統一する処理をいいます。

。。。と調べようと思っていたら、Luceneのスコアリング解析というドンピシャなまとまったpdfが公開されていた。