curious vehicle tech blog » 【Solr】 Solrを用いた画像検索 Part１

【Solr】 Solrを用いた画像検索 Part１

水曜日, 8月 7, 2013

【Curious Vehicle 第14回 勉強会ネタ】

『Solrを利用した画像検索について』

みなさまご無沙汰しております。makino です。

* 今回は先日の第11回 Solr勉強会でお話しさせていただいた『Solrを用いた画像検索システム』についてこちらで発表させていただきます！

* テキストデータの検索ツールであるSolrで画像検索も行えたら今までとは違うインターフェースやサービスを作れるのでは!?
* Solr勉強会で話をさせていただいた時よりも改善を加えていますのでお付き合いいただければと思います！

【解説】Solrで画像を検索するための３ステップ
Solrによる画像検索 001

・画像情報はそのままでは検索が行えないので、Solrが得意なテキスト形式に画像データを加工していきます。
・そのファーストステップとして、①の『画像の特徴情報の抽出』を行います。

特徴点抽出アルゴリズム：SIFT特徴点解析

まず特徴点抽出アルゴリズムとしてSIFTの概要をご紹介します
SIFTアルゴリズムは画像内の特徴点の検出を行い、座標やスケールなどの情報を応答として抽出します
SIFTでは各特徴点毎に以下の情報が取得できます

⇒

SIFT特徴点解析による特徴点抽出の流れ

どのように動くか流れを見てみます！
Solr勉強会の際は、著作権的にNGな画像を多量に使ってしまいましたが、今回は弊社のロゴで許してください

▼

Solrによる画像検索 002

▼

Solrによる画像検索 003

▼

Solrによる画像検索 004

▼

Solrによる画像検索 005

▼

Solrによる画像検索 006

* これらの解析処理を検索画像すべてに実施します
* この状態ではまだSolrのword情報(Term)としては少し情報が荒いため、②の『特徴情報のクラスタリングによるWord化』へ進みたいと思います
* 勉強会の際にお見せしたデモサイトも近いうちに公開したいと思います。よろしくお願いします！

Tips：Solr勉強会で質問いただいた点について
質問1：特徴量とクラスタリングの数のチューニングについて

今回はクラスタリング数をを100固定としてしまいましたが、今回の検索精度を上げるための1番のチューニングポイントだったのでまず検証を進めました
結果からとなりますが、特徴量の数に比例させk-meansによるクラスタ数を変化させましたが、検索精度の向上という部分とは紐づきませんでした
ただこちらを調べているうちに特徴点の数が画像によりだいぶ検出数が異なっていることを確認しこちらを改善することで検索精度の大きな向上が見られました
k-meansは計算量を減らすためのアプローチとして利用していますが、検索精度という意味でのアプローチではないため、DeepLearningや教師有り的なアルゴリズムへ次はチャレンジしようと思います

質問2：tf-idfにより画像の特徴がロストしてしまわないか