如何提取从PDF文档中的文本?

如何提取使用PHP的PDF文档中的文本?

(我不能使用其他工具,我没有root权限)

我发现了一些功能,纯文本的工作,但他们没有处理好Unicode字符:

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

--------------解决方案-------------

下载class.pdf2text.php @ http://pastebin.com/dvwySU1a(更新2014年4月的5)或http://www.phpclasses.org/browse/file/31030.html(需要注册)

码:

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('Videographer_RFP.pdf'); //grab the test file at http://www.newyorklivearts.org/Videographer_RFP.pdf
$a->decodePDF();
echo $a->output();

输出:

摄影师征求建议书介绍和使命纽约艺术活在努力通过新的方法来生产,展示和教育支持国家的舞蹈和运动型的艺术家创造一个坚实的框架。 我们的程序支持艺术家个人在其职业生涯的各个阶段,鼓励实验性和严密性。 纽约现场艺术在纽约市位于西219街19号,是由比尔·T·琼斯领导的执行艺术总监

类并不适用于所有的PDF的我测试过的工作,试试看,你可能会得到幸运:)

用linux用“pdftotext”命令。 将帮助ü

我知道,这个话题是很老,但是这种需求仍然活着。 我看了很多文件,论坛和脚本,并建立一个新的高级的一种,它支持压缩和非压缩的PDF:

https://gist.github.com/smalot/6183152

希望它可以帮助EVERONE

分类:php 时间:2015-03-16 人气:0
分享到:

相关文章

Copyright (C) 55228885.com, All Rights Reserved.

55228885 版权所有 京ICP备15002868号

processed in 0.726 (s). 9 q(s)