curious vehicle tech blog » 【Solr】 Solrを用いた画像検索 Part２

【Solr】 Solrを用いた画像検索 Part２

木曜日, 8月 29, 2013

【Curious Vehicle 第14回 勉強会ネタ】

『Solrを利用した画像検索について』 Part2

また2週間ほど空いてしまいました。お疲れ様です.makino です。

* 今回は先日の第11回 Solr勉強会でお話しさせていただいた『Solrを用いた画像検索システム』について継続して共有をさせていただきます。

* 今回は特徴情報をSolrのIndexデータとしてまとめる部分についてご説明いたします！

【解説】Solrで画像を検索するための３ステップ Part2
Solrによる画像検索-2 001

・Part1で行った画像データの特徴情報化だけでは情報量が多くまた計算量も増えてしまうため、②の『特徴情報のクラスタリングによるWORD化』を行います。

クラスタリングアルゴリズム：K平均法クラスタリング(K-means)

Solrによる画像検索-2 002

K平均法クラスタリングによるクラスタリング処理の流れ

▼

Solrによる画像検索-2 003

▼

Solrによる画像検索-2 004

▼

Solrによる画像検索-2 005

▼

Solrによる画像検索-2 006

▼

Solrによる画像検索-2 007

* これらのクラスタリング処理も検索画像すべてに実施します
* 勉強会の際はクラスタリング数を全画像100固定でクラスタリングを行っています
* この状態でやっとSolrに投入できる状態のデータが出来上がりましたので、③の『Solrによる画像情報の検索』へ進みたいと思います

Tips：Solr勉強会以降の進展について

その1：特徴量とクラスタリングの数のチューニングについて

前回、特徴量の数に比例させk-meansによるクラスタ数を変化させるようなチューニングでは検索精度の向上という部分とは紐づかなかったと書かせていただきました
こちらの改善として精度向上が見られた点を共有したいと思います
Part1でのTipsにも書きましたが、検索精度が低い画像は総じて特徴情報の量が少ない傾向がありました。
情報量が少ない画像は画像加工処理を追加し画像を回転させて再度特徴情報を取得することである程度安定した特徴量の抽出が行え、検索精度の高い向上が見られました
Sift特徴量のアルゴリズムでは、特徴が発生した座標やアングル情報を持っていますが今回の画像検索では汎用性という意味でこちらの情報を利用せず特徴情報のみで類似検出を行っているためこのような結果につながっていると思います
用途が絞られるような画像検索であればもっとピンキーなチューニングにより精度向上が狙えると思うのですが、汎用性を踏まえ検証したところでは上記のようなチューニングで高い効果の確認ができました
※ 作業量の多そうな検証を省いたわけでなありません！たぶん！