获得从Lucene索引最高频率方面

我需要从几个Lucene索引中提取具有最高频率方面 ,将其用于某些语义分析。

所以,我想,也许前30名最发生的历史条件(仍然没有阈值决定,我将分析结果)和它们的每个索引计数。 我知道我可能会失去一些精度,因为potentionally下降重复,但是现在,可以说,我很确定这一点。

因此,对于提出的解决方案,(不用也许说的)速度并不重要,因为我会做静态分析,我把重音实施简单 ,因为我不是那么熟练使用Lucene和不能环绕它的一些概念,我的脑海里。 。

我找不到任何代码样本,类似的事情,所以所有具体建议(代码,伪代码,链接代码示例......)感谢所有的建议!

谢谢!

--------------解决方案-------------

看看这个:http://sujitpal.blogspot.com/2009/02/summarization-with-lucene.html

本页面的评论类有computeTopTermQuery方法,你应该能够轻松地改造为打算在多个指标。

一个非常简单的方法是使用卢克。 在“概述”选项卡上,有一个“显示顶部条款”按钮可用于你所需要的。

分类:java的 时间:2015-03-15 人气:0
分享到:

相关文章

Copyright (C) 55228885.com, All Rights Reserved.

55228885 版权所有 京ICP备15002868号

processed in 2.523 (s). 10 q(s)