基于关键词提取的搜索结果聚类研究

来源 :第五届全国信息检索学术会议CCIR2009 | 被引量 : 0次 | 上传用户:eidolonfish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索的结果往往庞杂,缺乏有效地加工整理,对搜索结果进行聚类是一种普遍的需求,而传统的文本聚类方法不能提供有效的类别标签,且速度较慢,不适用于在线搜索结果的聚类。本文针对性地提出了基于关键词提取的搜索结果聚类算法,工本思想为:结合信息检索的特点,将词频(TF)、词性和互信息等特征进行融合计算,综合实现关键词的提取;最终以筛选出的关键词作为基础特征,实现层次聚类。经实验验证,该方法P@10达到80%,用户满意度达到85%。实验结果表明,基于关键词提取的搜索结果聚类算法优于目前已知的所有系统。
其他文献
基于统计的领域术语抽取方法近年来得到了广泛的研究。然而领域术语抽取方法与领域相关,并且评价需要大量的人力资源,因此对这些方法进行比较存在着一定的困难。因此本文采用基
会议
仿生模式识别是一种不同于传统模式识别的理论方法,其理论基点是特征空间中同源样本的连续性原理,并通过对同类样本在高维空间中的最佳覆盖来达到认识和区分样本的目的。本文对
会议
提出一种采用树型概要结构的密度网格树流聚类算法DG-Tree(Density and Grid-Tree Algorithm)。该算法利用数据流聚类算法CluStream中的处理框架,把聚类分为微聚类和宏聚类两
会议
本文使用multi-agent的建模思想,以现实为基础建立了一个舆论涌现的仿真模型。该模型主要由个体和媒体以及它们之间的规则组成。个体的属性包括了个体之间的信任度、个体观点
会议
本文通过对呼和浩特市失地农民状况的调查和对失地农民养老保险实施办法的研究,分析了现行办法在引入商业保险运作理念方面的先进性,同时结合呼和浩特市的现状,对现行失地农
传统聚类算法通常建立在显式的模型之上,却很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,本文提出了一种基于空间映射(Mapping)及尺度变换(Rescalin
会议
在文本分类任务中,通常首先以TFIDF模型表示特征权重,进而通过特征选择函数给出的得分将特征排序,排名靠前的特征以其TFIDF值输入分类器。特征选择函数所计算出来的得分能一定程
会议
自动的音乐流派分类是一项应用前景广阔同时又非常具有挑战性的研究工作,艺术家在创作过程中经常将不同音乐流派的风格融合在一起,这样就使得单纯依靠底层声学特征而进行的流派
会议
在电子商务交易中,商品的类别都是按照层次结构来进行分类的。所谓层次结构是指商品的类别间存在一个树状的结构。在进行商品分类研究时,考虑到商品的特殊特征,比如某些商品根据
会议