こんにちは、Curious Vehicle中鉢です。
前回はSolrCellを経由してHTMLの内容をインデキシングしてみました。
今回はその他いろいろなファイルをインデキシングしたり、
パラメータによってSolrへのインデキシングの内容を
制御したりしてみようと思います。
いろいろなファイルを読み込ませてみる
前回はHTMLファイルを読み込ませてみて
- title
- links
- content-type
- content
- _version_
といった内容のデータが取れることがわかりました。
今回はそのほかのOffice、PDFといったファイルを読み込ませてみようと思います。
とりあえずはTikaのSupported Document Formatsのページから適当に
いくつかピックアップして読み込ませてみました。