搜索引擎中自动分类关键技术研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:rsilent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是网络信息检索的重要工具,但现有搜索引擎检索到的结果太多,用户很难找到真正想要的资料。如何提高搜索引擎的查准率是其亟待解决的问题。文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势。将计算机文本自动分类引入搜索引擎,可以有效地提高搜索引擎的检索精度,为用户提供高质量、高相关度的查询结果。 1.对向量空间模型的概念,涉及的相关技术进行了详细的介绍。在透彻分析网页结构特点的基础上,结合网页的特性,对TF-IDF特征权重计算公式进行了改进,体现了处于Web文本结构中不同位置的特征词对文本类别的不同区别能力。 2.对文本自动分类中的特征选择这一关键技术进行了研究。在对特征选择步骤和常用特征选择算法进行分析的基础上,对互信息算法进行了深入分析,考虑类别比例不同和负值情况下隐藏的影响较大的特征信息,对其进行改进,使文本之间的相似度更为准确。 3.对分类系统中的分类算法这一核心技术进行了深入研究。在介绍现有的常用分类算法,并详细分析了KNN算法实质的基础上,针对KNN的不足,考虑合并对分类有相同贡献的词,及特征词的关联与共现等因素,对其进行了改进。 4.采用20_Newsgroups测试集和libsvm分类器,对上述研究技术进行了实验及分析,并对今后的研究工作进行了展望。
其他文献
随着互联网在中国的迅速普及,现在每天中文网页都在以数以万记的速度增加,这无疑给我们带来了巨量信息。那么面对如此庞大的信息,我们迫切需要解决的问题是如何管理和利用这
CTI(Computer Telecommunication Integration,计算机电话集成)技术是计算机技术和电信技术相结合的产物,它使计算机网络和电信网络有机的融为一体,对信息社会起到了至关重要
汽车工业的高速发展,导致汽车电子成为汽车性能和安全体系的重要组成部分,汽车轮胎监测系统是汽车安全的重要保障系统之一。汽车轮胎监测系统的研究有利于提高国产汽车的安全性
随着Internet的发展,人们在得益于信息革命所带来的新的巨大机遇的同时,也不得不面对信息安全问题的严峻考验。为了增强计算机网络的安全性能,人们研究出了众多的安全技术和机制
在铁路信息化规划中,数据中心作为铁路各级单位的数据存储、应用和共享的基本工具,在铁路信息现代化建设中占有重要地位。科学地设计并建立各级数据中心体系,是在铁路信息化
随着互联网技术的迅猛发展,网络技术的应用已经进入人们日常生活的各个角落。在给人们生活带来便利的同时,也为蠕虫的大肆传播创造了条件。建立蠕虫传播模型是我们研究蠕虫传
论文以并行计算模型为核心展开研究。并行计算模型为并行算法和并行计算机系统结构的分析与设计提供了具有指导意义的理论界面和模型框架,它是并行计算研究的重要领域。目前
随着企业信息化的不断发展,企业根据自身在不同阶段的需求而建设了不同的子系统,因为没有总体和全局的考虑,各个子系统之间难以进行通讯,数据不能共享,造成了数据的冗余和不
人脸识别技术在近几十年来成为图像处理与模式识别领域的一个研究热点,不但在理论研究上具有较大的挑战性,而且在现实生活中有广阔的应用市场。Gabor小波类似于哺乳动物简单
目前,互联网在我国正以迅猛的速度发展。互联网每天以其提供的海量信息为大众服务着,它的可靠运行已经成为企业正常生产、群众正常生活的必要前提,而这一切都离不开对网络信息的