はじめまして。Curious Vehicleの中鉢と申します。
本日よりCurious Vehicleの技術ブログを書くことになりました。
個人的に興味のあることや、いただいたお仕事を通じて
身に着けた技術、またハマった点などを
つらつらと書き綴っていこうかと思っています。
さて、本日は弊社でもコンサルティングを行っている
Apache Solrの一機能であるSolrCellについて
少し調べてみましたのでその調査内容なんぞを書いていきたいと考えています。
SolrCellとは
PDFやMSOffice文書のようなバイナリファイルや画像、音声のファイル等から
テキストデータ、メタデータなどを抽出しSolrのインデックスデータを作成、
更新する機能となります。
テキストデータの抽出にはApacheプロジェクトのTikaというソフトウェアを
利用しており、抽出できるファイルの種類もTikaのものに準じることになります。
※サポートしているフォーマットはTikaのサイトを参照ください。