索引PDF使用Solr

任何人都可以点我的教程。

我与Solr的主要经验是索引的CSV文件。 但我无法找到任何简单的指令/教程,告诉我,我需要做索引PDF文件。

我已经看到了这一点:http://wiki.apache.org/solr/ExtractingRequestHandler

但它是非常小的意义,我。 我是否需要安装提卡?

林失去了 - 请帮助

--------------解决方案-------------

你可以使用dataImportHandler。 该DataImortHandle将在solrconfig.xml中定义的DataImportHandler的配置应该在不同的XML配置文件来实现(数据-config.xml中)

索引PDF文件你可以

1)抓取目录下找到所有PDF的使用FileListEntityProcessor

2)阅读从“内容/指数”-XML文件的PDF文件,使用XPathEntityProcessor

如果您有相关的PDF文件的列表,使用TikaEntityProcessor看看这个http://solr.pl/en/2011/04/04/indexing-files-like-doc-pdf-solr-and-tika-integration/(例如用PPT),这Solr的:数据导入处理程序和Solr细胞

这样做的最难的部分是从PDF文件获取元数据,使用一个工具,如光圈简化了这个。 必须有这些工具吨

光圈是提取和查询从PDF文件的全文内容和元数据的Java框架

Apeture抓起从PDF文件的元数据,并将其存储在XML文件中。

我用解析lxml的XML文件中,并张贴他们SOLR

使用Solr-4.9(最新版本截至目前),从如PDF,电子表格丰富的文档中提取数据(XLS,xlxs家庭),演示文稿(PPT,个百分点),文档(DOC,TXT等)变得非常简单。 从这里下载的档案提供的示例代码示例包含了一个基本的Solr模板项目,让您快速上手。

必要的配置变化如下:

  1. 改变solrConfig.xml包括以下几行:

    <lib dir="<path_to_extraction_libs>" regex=".*\.jar" /> <lib dir="<path_to_solr_cell_jar>" regex="solr-cell-\d.*\.jar" />

创建一个请求处理程序如下:

<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" > <lst name="defaults" /> </requestHandler>

2.增加从solrExample必要的jar文件到您的项目。

3.Define架构根据您的需求和火象的查询:

curl "http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true" -F "[email protected]"

进入GUI门户网站,查询看到索引的内容。

让我知道,如果你面对任何问题。

使用Solr的,ExtractingRequestHandler。 这使用Apache的蒂卡解析PDF文件。 我相信,它可以拉出元数据等,还可以通过您自己的元数据。 提取请求处理程序

分类:Solr的 时间:2012-10-22 人气:0
分享到:

相关文章

Copyright (C) 55228885.com, All Rights Reserved.

55228885 版权所有 京ICP备15002868号

processed in 0.246 (s). 9 q(s)