【摘 要】
:
信息检索的结果往往庞杂,缺乏有效地加工整理,对搜索结果进行聚类是一种普遍的需求,而传统的文本聚类方法不能提供有效的类别标签,且速度较慢,不适用于在线搜索结果的聚类。本文针对性地提出了基于关键词提取的搜索结果聚类算法,工本思想为:结合信息检索的特点,将词频(TF)、词性和互信息等特征进行融合计算,综合实现关键词的提取;最终以筛选出的关键词作为基础特征,实现层次聚类。经实验验证,该方法P@10达到80
【机 构】
:
首都师范人学计算机联合实验室,北京 100037 中国科学院计算技术研究所,北京 100190 中
【出 处】
:
第五届全国信息检索学术会议CCIR2009
论文部分内容阅读
信息检索的结果往往庞杂,缺乏有效地加工整理,对搜索结果进行聚类是一种普遍的需求,而传统的文本聚类方法不能提供有效的类别标签,且速度较慢,不适用于在线搜索结果的聚类。本文针对性地提出了基于关键词提取的搜索结果聚类算法,工本思想为:结合信息检索的特点,将词频(TF)、词性和互信息等特征进行融合计算,综合实现关键词的提取;最终以筛选出的关键词作为基础特征,实现层次聚类。经实验验证,该方法P@10达到80%,用户满意度达到85%。实验结果表明,基于关键词提取的搜索结果聚类算法优于目前已知的所有系统。
其他文献
采用机械力化学包覆方法,通过在绢云母表面包覆TiO2制备了绢云母/TiO2复合颗粒(SRI/Ti-CPM)。实验研究了SRI/Ti-CPM制备工艺因素的影响和SRI/Ti-CPM的颜料性能,结果表明,绢云母研磨粒度、复合时间、球料比和TiO2用量对SRI/Ti-CPM性能影响显著;SRI/Ti-CPM具有类似钛白粉的颜料性质,遮盖力为钛白粉的90%,吸油量和紫外线吸收功能与钛白粉相同,用于涂料具有
在水平Y型分支管上,采用压缩空气作为输送动力,小米作为输送物料,进行气固两相分流试验,考察了分流过程中的固相流量分配特性的变化规律。研究发现,随变动支管与主管夹角的增大,流量分配特性曲线呈整体下移趋势;对于不同结构的Y型分支管,当气体速度低于一定值时,流量分配特性曲线将出现拐点,但时机并不同步;继续降低气速,不同夹角的支管的流量分配特性曲线具有不同的单调性。最后,采用人工神经网络对固相流量分配特性
本研究利用微粒成长的热力学模式分析单晶型奈米α-Al1O3纤维之直径与长度间之存在关系。目的在探讨以热处理所制得的Al2O3纤维之直径的下限(最细)。Α-Al2O3纤维以静电纺丝法(Electrospinning)制得。纤维之直径与长度则以高解析电子显微才技术观察量测。其间并对此单晶缀维的成长微结构加以分析。研究发现,此单晶奈米α-Al2O3纤维所能存在的最小直径约为17nm。纤维由发育完好稳定的
每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。这些突发事件或话题在论坛中并不是显而易见的,它们需要通过人工的总结与归纳。这需要花费大量的人力资源,并且效率低下。如何使用机器自动化的方法抽取论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题抽取问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻
近年来,越来越多的研究者关注博客倾向性检索。它的目标是检索出不仅与特定查询主题相关而且具有对该主题有评论的博文单元(包括博义及其评论),并依据倾向性强度(即,度量博丈对特定查询的强弱)进行排序。目前大多数研究工作仅仅通过单个博文单元对查询主题的倾向性强弱对博文进行排序。然而,因为博客是博主表达自己观点情感的媒介,所以博主的个性风格能够很大程度上影响着倾向性强度。例如,乐观的博主往往用褒义程度比较强
垃圾短信过滤是一个文本分类问题。如何设计分类器,可以在训练样本较少的情况下达到可观的精度是一个重要的问题。本文对传统分类器的结构加以改进,设计了一种基于潜在中间层的两级分类器,每级用贝叶斯方法实现。进一步地,将朴素贝叶斯分类器与之加权结合。实验结果表明,两级分类器大幅度提升了分类错误率的收敛速度。组合分类器在此基础上提高了训练样本较多时的精度,集成了两者的优点。
情感分类是一项具有较大实用价值的分类技术,它能够识别文本内容中隐含的情感或观点,在互联网信息日益丰富的今天,情感分类可以在一定程度上解决信息杂乱的情况,方便用户准确获取所需信息.然而,由于数据的标注耗时耗力,情感分类面临着只有极少标注数据和大量的无标注数据的问题.本文提出了一种新颖的基于线性邻域扩散的半监督学习的文本情感分类算法.假设空间中存在一个情感流形结构,待分类文本看做是这个流形上抽样的点,
近年来,关于药的作用及其对人类健康影响的研究越来越多,相关的文献也迅速增长,工业界认为90%的药物标靶来自于生物医学文献,随之基于药的相关检索逐渐成为焦点。而为相关专家提高检索效率、方便获得资料的第一步就是要准确的识别出药名,构建药名词典。文中给出了从生物医学文献中抽取出药名来构建词典的方法,第一次将基于上下文模板的命名实体识别方法用于药名实体识别并结合了丰富的特征对候选药名进行去噪。它首先由有限
Kad网络中存在数百万的共享资源,而其中有相当一部分可被评定为敏感资源。首先用我们的Kad网络采集器:Rainbow对节点拥有的文件资源进行探测;然后对节点资源和敏感资源进行相关统计分析。我们发现:1)只有3.09%的节点拥有资源;2)文件长度和文件流行度都近似符合Zipf分布;3)利用同一个file-content-hash的多个文件名的共现词可以更准确地进行敏感判别;4)敏感资源只占随机样本的
降维是在损失较少信息的情况下处理高维图像数据的关键技术,是高维数据预处理的重要步骤。本文研究了基于配对约束和混合核函数的半监督非线性降维方法KS2DR,该方法可有效利用标签和未标签的样本执行半监督学习·基于配对约束形式的领域知识被用于判断当前样例是属于相同类(相似约束)还是不同类(不相似约束)·KS2DR先将样本数据投影成一系列“有用的”特征形式,同时保持原始数据以及定义在投影后的低维特征空间中的