Archive for the ‘勉強会’ Category

【Solr】 Solrを用いた画像検索 Part２

木曜日, 8月 29, 2013

【Curious Vehicle 第14回 勉強会ネタ】

『Solrを利用した画像検索について』 Part2

また2週間ほど空いてしまいました。お疲れ様です.makino です。

* 今回は先日の第11回 Solr勉強会でお話しさせていただいた『Solrを用いた画像検索システム』について継続して共有をさせていただきます。

* 今回は特徴情報をSolrのIndexデータとしてまとめる部分についてご説明いたします！

【解説】Solrで画像を検索するための３ステップ Part2
Solrによる画像検索-2 001

・Part1で行った画像データの特徴情報化だけでは情報量が多くまた計算量も増えてしまうため、②の『特徴情報のクラスタリングによるWORD化』を行います。

クラスタリングアルゴリズム：K平均法クラスタリング(K-means)

クラスタリングアルゴリズムとしてK平均法クラスタリングを簡単にご紹介します
K-means は入力データをｋ個のクラスタに分類する単純な分類機アルゴリズムです
ランダムに振り分けたクラスタから各クラスタの重心を測定し、重心に近い座標で再度重心計算とクラスタリングを繰り返すクラスタリング手法です

Solrによる画像検索-2 002

上記の図はクラスタリング数を２として重心計算を20回繰り返した結果を示しています

K平均法クラスタリングによるクラスタリング処理の流れ

前回の復習も含めどのように動くか流れを見てみます！

▼

Solrによる画像検索-2 003

▼

Solrによる画像検索-2 004

▼

Solrによる画像検索-2 005

▼

Solrによる画像検索-2 006

▼

Solrによる画像検索-2 007

* これらのクラスタリング処理も検索画像すべてに実施します
* 勉強会の際はクラスタリング数を全画像100固定でクラスタリングを行っています
* この状態でやっとSolrに投入できる状態のデータが出来上がりましたので、③の『Solrによる画像情報の検索』へ進みたいと思います

Tips：Solr勉強会以降の進展について

その1：特徴量とクラスタリングの数のチューニングについて

前回、特徴量の数に比例させk-meansによるクラスタ数を変化させるようなチューニングでは検索精度の向上という部分とは紐づかなかったと書かせていただきました
こちらの改善として精度向上が見られた点を共有したいと思います
Part1でのTipsにも書きましたが、検索精度が低い画像は総じて特徴情報の量が少ない傾向がありました。
情報量が少ない画像は画像加工処理を追加し画像を回転させて再度特徴情報を取得することである程度安定した特徴量の抽出が行え、検索精度の高い向上が見られました
Sift特徴量のアルゴリズムでは、特徴が発生した座標やアングル情報を持っていますが今回の画像検索では汎用性という意味でこちらの情報を利用せず特徴情報のみで類似検出を行っているためこのような結果につながっていると思います
用途が絞られるような画像検索であればもっとピンキーなチューニングにより精度向上が狙えると思うのですが、汎用性を踏まえ検証したところでは上記のようなチューニングで高い効果の確認ができました
※ 作業量の多そうな検証を省いたわけでなありません！たぶん！

Posted in Solr, 勉強会 | No Comments »

【Solr】 Solrを用いた画像検索 Part１

水曜日, 8月 7, 2013

【Curious Vehicle 第14回 勉強会ネタ】

『Solrを利用した画像検索について』

みなさまご無沙汰しております。makino です。

* 今回は先日の第11回 Solr勉強会でお話しさせていただいた『Solrを用いた画像検索システム』についてこちらで発表させていただきます！

* テキストデータの検索ツールであるSolrで画像検索も行えたら今までとは違うインターフェースやサービスを作れるのでは!?
* Solr勉強会で話をさせていただいた時よりも改善を加えていますのでお付き合いいただければと思います！

【解説】Solrで画像を検索するための３ステップ
Solrによる画像検索 001

・画像情報はそのままでは検索が行えないので、Solrが得意なテキスト形式に画像データを加工していきます。
・そのファーストステップとして、①の『画像の特徴情報の抽出』を行います。

特徴点抽出アルゴリズム：SIFT特徴点解析

まず特徴点抽出アルゴリズムとしてSIFTの概要をご紹介します
SIFTアルゴリズムは画像内の特徴点の検出を行い、座標やスケールなどの情報を応答として抽出します
SIFTでは各特徴点毎に以下の情報が取得できます

⇒

SIFT特徴点解析による特徴点抽出の流れ

どのように動くか流れを見てみます！
Solr勉強会の際は、著作権的にNGな画像を多量に使ってしまいましたが、今回は弊社のロゴで許してください

▼

Solrによる画像検索 002

▼

Solrによる画像検索 003

▼

Solrによる画像検索 004

▼

Solrによる画像検索 005

▼

Solrによる画像検索 006

* これらの解析処理を検索画像すべてに実施します
* この状態ではまだSolrのword情報(Term)としては少し情報が荒いため、②の『特徴情報のクラスタリングによるWord化』へ進みたいと思います
* 勉強会の際にお見せしたデモサイトも近いうちに公開したいと思います。よろしくお願いします！

Tips：Solr勉強会で質問いただいた点について
質問1：特徴量とクラスタリングの数のチューニングについて

今回はクラスタリング数をを100固定としてしまいましたが、今回の検索精度を上げるための1番のチューニングポイントだったのでまず検証を進めました
結果からとなりますが、特徴量の数に比例させk-meansによるクラスタ数を変化させましたが、検索精度の向上という部分とは紐づきませんでした
ただこちらを調べているうちに特徴点の数が画像によりだいぶ検出数が異なっていることを確認しこちらを改善することで検索精度の大きな向上が見られました
k-meansは計算量を減らすためのアプローチとして利用していますが、検索精度という意味でのアプローチではないため、DeepLearningや教師有り的なアルゴリズムへ次はチャレンジしようと思います

質問2：tf-idfにより画像の特徴がロストしてしまわないか

画像の特徴から作り出したTerm情報の頻度分布を見てみましたが、小さい特徴の塊が6～7割の割合を占め大きな特徴情報がうまくロングテールとなり検索精度の向上に繋がっているように見られました

※ 質問いただいた方とは、先日のトレジャーデータさんの懇親会でまたお会いしました。まさかトレジャーの方だったとは

Posted in Solr, 勉強会 | 1 Comment »

【Solr】SolrCellについて [その２]

木曜日, 11月 22, 2012

こんにちは、Curious Vehicle中鉢です。

前回はSolrCellを経由してHTMLの内容をインデキシングしてみました。

今回はその他いろいろなファイルをインデキシングしたり、

パラメータによってSolrへのインデキシングの内容を

制御したりしてみようと思います。

いろいろなファイルを読み込ませてみる

前回はHTMLファイルを読み込ませてみて

title
links
content-type
content
_version_

といった内容のデータが取れることがわかりました。

今回はそのほかのOffice、PDFといったファイルを読み込ませてみようと思います。

とりあえずはTikaのSupported Document Formatsのページから適当に

いくつかピックアップして読み込ませてみました。

Read on »

Posted in Solr, 勉強会 | No Comments »

【アルゴリズム】遺伝的アルゴリズムについて

水曜日, 10月 17, 2012

【Curious Vehicle 第12回 勉強会ネタ】

『遺伝的アルゴリズムについて』

みなさま初めまして。makino です。

それでは今回のネタですが、『アルゴリズム』として『遺伝的アルゴリズム』を取り扱います。

そうアルゴリズム！魅惑の響きですね。最近まったくそういった響きとは離れた作業ばかりしていますが、面白い技術を広く書き連ねていきたいと思ってます！

【解説】遺伝的アルゴリズムについて

遺伝的アルゴリズムは、生物の進化をプログラムで表現するAIアルゴリズムの1種です
生物の進化は世代交代を繰り返すごとに染色体の情報をクロスオーバし、環境などに適用するよう常に進化します
この動きをアルゴリズムとして表現したものが遺伝的アルゴリズムとなります

遺伝的アルゴリズム 001

ある一定の確率で突然変異を発生させるアルゴリズムも必要です
突然変異の必要性は後半にあるサンプルを確認してみてください

遺伝的アルゴリズム 001

アルゴリズムフローは以下の２～３を繰り返し進化を行います

遺伝的アルゴリズム 001

第1世代の作成 (初期化)
適応性の評価
エリートの選択
進化 (新世代の作成)

世代交代を繰り返すことで徐々に徐々にこちらが求める水準まで各ゲノムが進化していきます！

【サンプル】遺伝的アルゴリズムサンプル

では非常に見ずらく申し訳ないのですがSampleでもご覧ください
このサンプルは、以下の表にある条件で繰り返し実行します
サンプルなので、各染色体の値が1となる(合計50となる)ゲノムが優秀として評価する単純な評価で進めます

遺伝的アルゴリズム sample 004

1. 第1世代作成 (初期化)

初期化として、第1世代となるゲノム因子をランダムにて作成します
適応値についても20前後の低い値のゲノムが揃っています

遺伝的アルゴリズム sample 001

2. いきなりですが、80世代目まで経過しました

適応性も 20前後だったのが、40台まで成長しています
ココで注目していただきたいのは、赤でくくられた全世代が “0” のの染色体があります
通常のクロスオーバでは、この染色体はいつまでたっても、“0” のままですが．．．。

遺伝的アルゴリズム sample 001

3. またまた飛びますが 100世代目

親が “0” の因子しかもっていなかった要素に “1” を持つゲノムが発生しています
突然変異(1%) により、絶対生まれてこない条件で必要な”1″の因子が発生しているのがわかります
今回では約 100世代目で必要な 50の適正値を持つゲノムが発生しました

遺伝的アルゴリズム sample 003

【まとめ】遺伝的アルゴリズムとは

統計アルゴリズムではありますが、AI的なアルゴリズム
問題の予測が難しい場合などに有用 (サンプルは単純すぎますが．．．。)
EC系でも、ロングテイルではなく優良顧客に特化した情報パターンを検出したい場合などに有用

ゲノムごとに分散が可能なので、MapReduceなどとも相性がよさそうです

こんなところで今回はまとめとさせていただきます！！

Posted in Hadoop, 勉強会 | No Comments »

【Solr】SolrCellについて [その１]

火曜日, 10月 16, 2012

はじめまして。Curious Vehicleの中鉢と申します。

本日よりCurious Vehicleの技術ブログを書くことになりました。

個人的に興味のあることや、いただいたお仕事を通じて

身に着けた技術、またハマった点などを

つらつらと書き綴っていこうかと思っています。

さて、本日は弊社でもコンサルティングを行っている

Apache Solrの一機能であるSolrCellについて

少し調べてみましたのでその調査内容なんぞを書いていきたいと考えています。

SolrCellとは

PDFやMSOffice文書のようなバイナリファイルや画像、音声のファイル等から

テキストデータ、メタデータなどを抽出しSolrのインデックスデータを作成、

更新する機能となります。

テキストデータの抽出にはApacheプロジェクトのTikaというソフトウェアを

利用しており、抽出できるファイルの種類もTikaのものに準じることになります。

※サポートしているフォーマットはTikaのサイトを参照ください。

http://tika.apache.org/1.2/formats.html

Read on »

Posted in Solr, 勉強会 | No Comments »

最近の投稿
アーカイブ
カテゴリー
- Hadoop
- Raspberry Pi
- Solr
- 勉強会
2024年10月

日月火水木金土

« 8月

1 2 3 4 5

6 7 8 9 10 11 12

13 14 15 16 17 18 19

20 21 22 23 24 25 26

27 28 29 30 31

2024年10月
日	月	火	水	木	金	土
« 8月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Archive for the ‘勉強会’ Category

【Solr】 Solrを用いた画像検索 Part２

【Solr】 Solrを用いた画像検索 Part１

【Solr】SolrCellについて [その２]

いろいろなファイルを読み込ませてみる

【アルゴリズム】遺伝的 アルゴリズム について

【Solr】SolrCellについて [その１]

SolrCellとは

最近の投稿

アーカイブ

カテゴリー

【アルゴリズム】遺伝的アルゴリズムについて