こんにちは、Curious Vehicle中鉢です。
前回はSolrCellを経由してHTMLの内容をインデキシングしてみました。
今回はその他いろいろなファイルをインデキシングしたり、
パラメータによってSolrへのインデキシングの内容を
制御したりしてみようと思います。
いろいろなファイルを読み込ませてみる
前回はHTMLファイルを読み込ませてみて
- title
- links
- content-type
- content
- _version_
こんにちは、Curious Vehicle中鉢です。
前回はSolrCellを経由してHTMLの内容をインデキシングしてみました。
今回はその他いろいろなファイルをインデキシングしたり、
パラメータによってSolrへのインデキシングの内容を
制御したりしてみようと思います。
前回はHTMLファイルを読み込ませてみて
はじめまして。Curious Vehicleの中鉢と申します。
本日よりCurious Vehicleの技術ブログを書くことになりました。
個人的に興味のあることや、いただいたお仕事を通じて
身に着けた技術、またハマった点などを
つらつらと書き綴っていこうかと思っています。
さて、本日は弊社でもコンサルティングを行っている
Apache Solrの一機能であるSolrCellについて
少し調べてみましたのでその調査内容なんぞを書いていきたいと考えています。
PDFやMSOffice文書のようなバイナリファイルや画像、音声のファイル等から
テキストデータ、メタデータなどを抽出しSolrのインデックスデータを作成、
更新する機能となります。
テキストデータの抽出にはApacheプロジェクトのTikaというソフトウェアを
利用しており、抽出できるファイルの種類もTikaのものに準じることになります。
※サポートしているフォーマットはTikaのサイトを参照ください。