论文部分内容阅读
检索结果的聚类,是一种对检索结果的组织方式,它致力于把具有公共子主题的检索结果组织在同一个类中,并对各个类形成标签以描述类的主题。它为用户快速定位于感兴趣的结果提供了很大的方便。国内外在检索结果聚类已有了大量的相关研究,聚类搜索引擎也有了一定的发展,但是目前检索聚类质量依然不高,主要体现在:没有把检索结果根据有意义的子主题进行组织;标签的可读性差。本论文在对现有的检索结果聚类技术和已有的聚类引擎的效果作了深入的调研分析的基础上,以形成有意义的子主题、生成可读标签为目标,提出了面向改善标签质量的检索结果聚类方法(LQOM),它的方案特征包括:(1)采取先抽取标签短语,后对文档划分的方法,标签短语的抽取方法是整个研究的核心;(2)使用候选词扩展的方式生成短语:首先获取有意义的候选词,作为主干成分;然后对这个主干进行成分扩展,把邻近词作为枝叶扩充进来,使其进一步成为完整短语;(3)候选词的打分中,利用候选词与查询词之间的平均距离作为词语的查询相关性度量、以包含该词语的文档的相似度作为词语的主题代表性的度量;(4)在计算短语的频率中,考虑到语言的复杂性和灵活性,引用近似短语相似度的计算法替代传统的字符串判等法:对于一个字符串,允许语句成分的插入、删减以及词间位置调换;(5)在完整短语的评判中,利用上下文文本熵对短语的独立性进行评分;(6)选取合适的短语特征和回归模型,对候选标签评分;(7)包含了标签短语的检索结果集合,形成了该子主题下的文档,对其它未包含各标签词的文档基于假设检验方法判断是否将划分到已得聚类。最后,本论文实验评估验证了短语频率计算中,引入近似短语相似度的计算法替代传统的字符串判等法的有效性;评估了本论文中短语评分中的选取的各种特征和各种不同的评分模型;通过P-R曲线选择了假设检验中的最优显著性水平;和Lingo方法对比,实验结果表明,本论文的方法在标签的质量上,比Lingo有较大的改善:高质量标签的比例得到提高、标签的查询相关性和主题代表性有了较大的改善,但是由于有限输入数据下对统计方法的限制,在采用上下文独立熵的方法下,标签的完整性还有待于提高。