PDF搜索工具内是不是也有“爬虫”？

2010-3-31天空软件佚名

【大中小】

p>　　“Filter”这个英文单词直译为过滤、搜索。提到“搜索”，大家立马联想到的就是——搜索引擎，因为百度、google等知名搜索引擎的广泛运用，为用户提供检索服务，极大地方便了网民对互联网的运用。据数据显示，中国4亿的网民平均每人每天至少有3次需要用到搜索引擎。可见，搜索功能的运用早已是大势所趋。

　　以百度为例，百度的搜索引擎工具是一种全文搜索引擎。通过自己的网页抓取程序，俗称“爬虫”或“蜘蛛”，顺着互联网网页中的超链接连续地抓取网页，并提取信息建立网页数据库。当搜索引擎抓到网页后，再做大量的预处理工作，像是提取关键字等，再提供检索服务。当用户输入检索的信息，搜索引擎便从索引数据库中找到匹配该关键字的网页。基本上这种全文的搜索引擎的工作流程是：“爬虫”爬取网页信息——处理网页信息，提取关键字等——搜索时，匹配关键字的网页信息。

　　现在不仅仅是网页需要搜索，个人电脑里的文件也需要搜索。电脑中的在文件或文件夹中搜索，实现了对发件人、作者、日期、文件名等的过滤，而像word、excel则实现了对文档里的内容部分进行查找。在PDF领域，也有可实现搜索的PDF相关内容的搜索工具。国内的只有FoxitPDFIflilter（亦称“福昕PDF搜索器）,国外的PDF搜索工具主要有AdobePDFIFilter和TETPDFIFilter。

　　这里以FoxitPDFIFilter为例，简要介绍下它的工作过程：

　　PDFIFilter可以帮助用户对大量的PDF文档进行索引，从而使用户快速搜索到PDF文档内的文本。FoxitPDFIFilter可以说是全文本搜索引擎的一个组件。通常搜索引擎分两个步骤来工作：

　　步骤1，搜索引擎首先遍历一个指定的位置，比如一个文件目录或数据库，然后在后台为所有的文档或最新更改过的文档进行索引，并建立内部数据来存储索引结果。

　　步骤2，用户指定想要搜索的关键词，接到搜索请求后，搜索引擎快速查阅索引结果，将所有包含关键词的文档反馈给用户。

　　在步骤1中，搜索引擎本身并不会识别PDF文档格式。因此，它要通过windows注册表来查询一个相关的PDFIFilter,那就是FoxitPDFIFilter.FoxitPDFIFilter识别PDF格式。它可以从文档中过滤掉格式，抽取出文本，然后返回给搜索引擎。同样是利用关键词索引的原理，其中只是有些细微的差别。

　　纵观所有的搜索引擎工具，其最重要的特点就是：快！准！

　　现在百度搜索结果的过程都提高到0.001秒的程度了。至于它的准确率自然不用说，如果不准的话百度也无法获得庞大用户的喜爱。而对于PDF方面，目前还不能和百度的处理速度相提并论，但在三种主流PDF过滤器内，还是有其可比性的。福昕PDF搜索器2.0刚一发布，一位软件评论家即在MSDN博客上发表了相关博文，其中一则测试结果显示：FoxitPDFIFilter2.0仅用了13分钟便完成了全部检索，它比TETPDFIFilter软件快6倍，更比AdobePDFIFilter软件快39倍！

　　多么惊人、明显的对比结果。换句话说，同一环境、同样文件数的基础上，AdobePDFIFilter需要用8个多小时才能完成整个搜索任务。看来，FoxitPDFIFilter这个“爬虫”爬的还比较快。它可爬到的PDF文档可以是文件，且不仅仅是文件名或文件夹的名称，甚至包括PDF文件里包含的文字内容，也可以是邮件附件或数据记录。且FoxitPDFIFilter2.0在多核的机器上，其索引速度是旧版本的三倍，性能提到极大的优化。

　　福昕公司销售副总裁助理埃里克·布莱恩特认为：“随着FoxitPDFIFlter2.0的发布，福昕公司在这个具有重要价值的产品上取得了巨大的进步，并将因为其丰富全面的功能，从而带给客户无可比拟的搜索性能。福昕公司将继续走在PDF领域的前端。”

本文来源：天空软件作者：佚名

上一篇文章：微软开放Outlook文件.pst数据格式

下一篇文章： MM最爱：私人日记本,锁住小秘密

win7电脑中毒导致cdf盘都不见了怎么办   印度电商网站Snapdeal宣布获得2亿美元融资   英特尔IDF大会开幕：实感技术再升级提三大构想
富士康2亿美元入股印度电商Snapdeal  传印度电商巨头Snapdeal融资5亿美元阿里参投   2015英特尔IDF召开乐视视频亮相现场
福昕阅读器7.1发布：简化PDF扫描   Twitter拟收购印度移动营销初创企业ZipDial  福昕PDF高级编辑器宣布停止销售
推荐：最实用PDF转换成Word方法大全

聚合推荐

2022年网吧恢复营业时间网吧卫生网吧电脑配置开网吧网吧键盘网吧配置网吧GHOST ROS 网吧软件故障解决网众无盘网吧游戏菜单网吧活动网吧优化网吧精品网吧新手

声明

声明：本站所发表的文章、评论及图片仅代表作者本人观点，与本站立场无关。文章是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本网联系，我们将及时更正、删除，谢谢。 Email:support@txwb.com，系统开号，技术支持，服务联系微信：_WX_1_本站所有有注明来源为天下网吧或天下网吧论坛的原创作品，各位转载时请注明来源链接！

天下网吧·网吧天下

PDF搜索工具内是不是也有“爬虫”？

推荐文章

最新文章