curious vehicle tech blog » 2012

Archive for 11月 2012

こんにちは、Curious Vehicle中鉢です。

前回はSolrCellを経由してHTMLの内容をインデキシングしてみました。

今回はその他いろいろなファイルをインデキシングしたり、

パラメータによってSolrへのインデキシングの内容を

制御したりしてみようと思います。

前回はHTMLファイルを読み込ませてみて

といった内容のデータが取れることがわかりました。

今回はそのほかのOffice、PDFといったファイルを読み込ませてみようと思います。

とりあえずはTikaのSupported Document Formatsのページから適当に

いくつかピックアップして読み込ませてみました。