【摘 要】
:
随着互联网技术的快速发展,网上信息的迅速增加,人们越来越依赖于搜索引擎来获取互联网上有用的信息。搜索引擎在给用户获取信息带来方便的同时也把用户带入了信息过载的窘境。
论文部分内容阅读
随着互联网技术的快速发展,网上信息的迅速增加,人们越来越依赖于搜索引擎来获取互联网上有用的信息。搜索引擎在给用户获取信息带来方便的同时也把用户带入了信息过载的窘境。如何充分利用网络资源,把更有效、更准确的信息提供给用户,这已成为搜索引擎技术研究的热点问题,也是本文的研究初衷。本文针对搜索引擎系统中若干关键技术进行了较深入的研究,研究内容主要包含以下几点:(1)提出了一种利用网页链接文本作为语料库的新词识别方法。将解析出的链接文本经过分词和频次统计后,计算相邻两词或字的互信息值,将互信息值大于某个阈值的相邻词或字的组合视为新词,并对识别出的新词经过进一步的排错处理。(2)提出了一种基于关键词提取的网页去重算法。提取网页标题的关键词,以标题关键词为种子,利用窗口搜索方式在正文中查找与标题关键词相关度高的其它关键词,将搜索到的所有关键词组成该网页文档的关键词集,计算两篇网页文档关键词集的重叠率,重叠率大于某个阈值则将这两篇网页文档视为重复网页。(3)设计了一种搜索引擎排序机制,利用搜索引擎数据对象的结构化信息计算词的权重,以倒排索引的方式建立索引库,并为用户提供与检索和或检索两种检索方式以方便用户使用。(4)提出了基于粒子群优化算法的文本分类算法:PSOSVM和PSOKNN。SVM文本分类的核心是一个有约束的高维优化问题,PSOSVM算法利用粒子群优化算法来解这个高维优化问题,用粒子种群的有指导的随机搜索技术,在样本空间内并行搜索,降低了计算代价,提高了文本分类的速度。PSOKNN算法在搜索K近邻的过程中,粒子群跳跃式移动,可以快速的找到测试样本的K个近邻,使得在保持K近邻法分类性能不变的情况下,分类的效率得到很大的提高。
其他文献
视景仿真系统目前在我国已经广泛应用于各种研究领域,如军事仿真、城市规划仿真系统、虚拟现实房产推销系统、大型工程漫游系统和模拟训练系统等。但是仿真技术在赛场上的应
随着大数据、物联网技术的快速发展,云制造作为一种新的生产模式,日益受到制造企业的重视和青睐。在云制造环境下,工业制造过程中所产生的数据不断累积且缺乏关联,如何构建数据间的关联关系成为有效发现隐藏在数据背后的价值的瓶颈问题。数据之间的这种逻辑关联关系更多的隐含在大量单调、离散的数据背后,很少有能够直观表现出来的逻辑关系,如果无法发现它们之间的关联关系,就导致无法从这些数据中抽取出有价值的信息以及无法
随着计算机科学与技术的发展,理论、实验和计算形成了当代科学研究的三大支柱。高性能计算已经成为支撑科学研究和高新技术发展的基础性交叉学科,越来越多的科学研究和重大工程
急性低血压症(Acute Hypotension Episodes,AHE)作为重症监护(Intensive Care Unit,ICU)中一种高死亡率、高突发率的术后并发症,严重威胁着患者术后的生命安全。生理信号时间序列
随着大数据时代的到来,如何快速处理数据并从中发掘有用的信息成为目前急需解决的问题。特征选择作为机器学习和数据挖掘领域的一个重要的预处理步骤,越来越受到学者们的关注
矩阵是数值代数中的一个基本概念,许多科学计算问题往往都可以归结为对矩阵的操作。在许多应用中,需要用到较长的矩阵链相乘,例如机器人,机器控制,以及计算机动画等。矩阵链
关联规则挖掘是数据挖掘的一个重要内容,计算频繁项集是关联规则挖掘中的关键技术和步骤。这方面的算法主要代表有两类:Apriori类算法、FP-Growth类算法。Apriori类算法缺陷之
随着互联网和电子商务的快速发展,各种商业活动和人们的日常生活越来越多的依靠网络来进行,如电子现金交易、电子拍卖、电子招标和电子合同的签署等。在复杂的网络环境下,如
在过去的数十年中,无论是商业企业、科研机构或者政府部门,MIS系统(Management Information System,管理信息系统)都被广泛地应用在信息管理上。以事务处理为主的MIS系统在方
XML自出现以来,就以其强大的跨平台交换的能力、数据表达能力以及简单、开放性、可扩展等优点而逐渐成为互联网上信息发布和交换的事实标准。由于XML数据的开放性,特别是网络