搜索引擎返回结果聚类技术的研究与实现

被引量 : 0次 | 上传用户:wendi8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网技术的飞速发展和搜索引擎技术的日趋成熟,人们逐渐开始频繁利用网络来获取所需的资源,而现有的搜索引擎返回的查询结果数量庞大且呈线性排列,用户很难在较短的时间内找到有用的信息,因此如何能够快捷、准确地发现信息则成为目前信息检索领域亟待解决的问题。文本聚类具有较强的灵活性和自动处理能力,已经逐渐成为对搜索引擎进行有效地组织和导航的重要手段。本文就文本聚类算法进行了深入的研究,采用Lingo聚类算法作为主要框架,探索和研究文本聚类在搜索引擎领域内的应用,主要研究工作如下:文本预处理的许多关键技术直接影响聚类的效果,因此本文对文本聚类预处理中涉及的关键技术做了深入的研究,在此基础上设计和实现了包含网页去噪、词干提取、停止词过滤等功能的预处理子系统。TF-IDF(Term Frequency Inverse-Document Frequency)是向量空间模型中最常用的权重计算方法,它可以有效地强化在文档中出现的高频词汇的权重,弱化在文档集合中出现频率较高但是包含文档信息量少的常用词的权重。但是,事实上词对文档的重要程度还与词的词性以及词在文档中的位置因素有关,因此本文在传统的TF-IDF的基础上加入词性权重与位置权重对其进行修正,实验证明改进后的TF-IDF可以更加准确的描述词对文档的重要程度,有效地提高了聚类算法的查准率和查全率,使算法的整体性能有了较大的提高。本文对Lingo聚类算法做了深入的研究和分析,通过对比实验证明它比目前流行的后缀树算法(STC)聚类的性能更优,提取出的类标签更能反映类别信息,易于理解。但是它产生的聚类没有层次性,不能很好的反映类别之间的包含关系。因此本文在Lingo的基础上引入HSTC(层次的后缀树聚类算法)中层次组织的方法对Lingo的聚类结果进行层次组织。实验证明改进后的层次的Lingo聚类算法(HLingo)能够较好的表现类别之间的层次关系,提取出的类标签也能充分的反应类别信息,克服了类合并时出现的类标签提取过长的问题,而且通过引入双阈值来调整包含关系,有效地克服了HSTC中类合并频繁的问题。无论是在测试集数据比较单一还是比较复杂的情况下都能获得较好的聚类效果,比HSTC具有更好稳定性。通常情况下对词进行词性标注时必须要考虑词的上下文环境,因此如果将词性标注技术引入搜索引擎结果聚类系统则意味着对搜索搜索引擎返回的结果必须在线进行标注,但由于词性标注算法的实现往往比较复杂,算法的时间复杂度较高,这对搜索引擎结果聚类系统的运行效率影响很大。本文对词性标注技术做了较为深入的研究,考虑到将词性标注引入聚类系统带来的巨大的系统开销,设计和实现了一个基于XML的词性词典,只有第一次被检索到的文档才进行词性标注并更新词典,否则直接在词典中查询即可得到词的词性信息,通过这种方式有效地避免了对相同文档地重复标注,从而减少了系统不必要的开销。最后结合以上几个方面的研究,设计和实现了一个聚类系统HappyDonkey,并将开源的搜索引擎Nutch集成到本系统中,实现了一个既可以对Yahoo搜索引擎返回的结果进行聚类,又可以就本系统的查询结果进行聚类,对外开放查询接口的多功能的聚类系统。实验证明,本文所研究的内容,有利于聚类算法性能的改进,达到了一定的预期效果。
其他文献
微弧氧化技术是近年来公认的最有发展前景的镁合金表面处理方法。微弧氧化后金属的耐磨性、耐蚀性、机械强度以及电绝缘性都得到了很大的提高。但由于微弧氧化陶瓷层存在微观
近年,我国的证券投资基金呈现空前的发展态势;基金规模从2005年的5000多亿元迅速增长到2008年初的3万多亿元。证券投资基金业的发展,客观上要求有一个合理、有效的税收制度来
基于微波器件中滤波器的重要性,本文设计分析了同轴,波导和双模介质这三种不同类型的滤波器,应用在不同的场合。在具体的设计过程中,研究了与之相关的理论和技术。首先,从传
企业所得税对企业的纯所得征税,具有流转税等其他税种无可比拟的税收中性优势,被西方誉为“良税”。我国企业所得税历史不长,但发展很快,已经成为我国的主体税种。随着时间的
近年来,我国铁路经历了重载运输、电气化改造、既有线提速等一系列的技术进步,现在正在朝高速铁路、客运专线方向发展。大秦铁路是我国第一条以开行重载单元式列车为主的双线
房地产属于资金密集型行业,开发项目周期长,受宏观经济、政策法规、区域差异等一系列因素影响。一旦投资决策失误,不仅企业面临极大风险,对社会也可能造成能源和资金的巨大浪
受国际融合教育思潮的影响,我国的随班就读经过20年的发展,已成为我国特殊儿童接受义务教育的主要形式,但社交技巧的教学在随班就读中并未受到重视。据文献所知,社交技巧的训
道路交通安全是重大的社会问题。城市道路交通事故多发地点的鉴别系统的研究是道路交通安全研究的重要一环。道路交通事故具有明确的空间位置特征。GIS是解决地理空间位置相
雷达波生命探测技术主要基于多普勒原理。当雷达波穿透一定障碍物而遇到人体时,反射的回波信号被人体生命活动(如呼吸、心跳等)引起的微动所调制,使得回波信号的一些参数发生
GIS(Geographic Information System)即地理信息系统,是在计算机硬、软件系统支持下,运用系统工程和信息科学的理论,对现实世界各类空间数据及描述这些空间数据特性的属性进