Archive for 11月 2012

こんにちは、Curious Vehicle中鉢です。

前回はSolrCellを経由してHTMLの内容をインデキシングしてみました。

今回はその他いろいろなファイルをインデキシングしたり、

パラメータによってSolrへのインデキシングの内容を

制御したりしてみようと思います。

いろいろなファイルを読み込ませてみる

前回はHTMLファイルを読み込ませてみて

  • title
  • links
  • content-type
  • content
  • _version_
といった内容のデータが取れることがわかりました。
今回はそのほかのOffice、PDFといったファイルを読み込ませてみようと思います。
とりあえずはTikaのSupported Document Formatsのページから適当に
いくつかピックアップして読み込ませてみました。