搜索引擎文本分类系统的研究与实现

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:socheapke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文首先介绍了搜索引擎的整体发展情况,包括中文智能搜索引擎的现状和特点,然后对文本自动分类系统中所涉及的关键技术,包括向量空间模型,文本表示方法,分词方法,特征提取,以及关键的分类算法,分别进行了研究和探讨.最后该文介绍了我们设计并实现的基于向量空间模型的文本分类系统的总体框架,系统流程和使用的具体技术,包括数据预处理中的分词技术,词频统计归一,以及利用熵实现特征提取;重点是KNN(K-nearest-neighbor)分类算法的实现.最后对我们的系统以及其他的关键算法进行了评估和结果比较.实验证明这种基于KNN算法的文本分类系统具有很好的分类性能.
其他文献
中央人民广播电台人事信息管理系统(简称CNRPMS)项目软件采用.NET四层体系结构的先进技术,对中央人民广播电台人事信息进行科学管理;借助面向对象技术,该软件实现对中央人民
该文内容主要包括: (1)深入探讨了密码学关于数据加密的典型算法.(2)介绍了当前广泛使用或较为时髦的三种数据加密技术及其数学背景,并客观地对其进行了分析.(3)分析比较了目
随着人们越来越依赖互联网来获取信息,互联网所承受的压力也越来越大。从用户的角度来看,网络数据的访问存在着时间和空间上的相关性,当某区域内有用户访问过一个内容后,该区
布匹瑕疵实时检测要解决"两高一低"即高检测率、高速度和低误检率三个难点问题.从这些要求出发,我们开发了一套基于视觉技术的布匹瑕疵自动检测系统.该论文主要研究用于该系
模型驱动架构(Model-DrivenAichitecture)是对象管理组织(OMG)近年所提出的软件开发架构规范.MDA提供了一条开放的、厂商中立的道路以应对业务与技术的不断变化.严格的基于统
随着计算机技术、控制技术、通信技术、CRT技术等的发展以及工业生产对计算机控制水平要求的提高,管理的集中性与控制的分散性这一实际需要推动了集散计算机控制系统(DCS)的发
数据挖掘是指从数据中发现隐含在其中知识的一种实践过程,作为一种技术它已应用在很多领域,而在档案信息管理领域中它还很陌生。档案是人们在各种实践活动中形成的信息记录。在
该文首先介绍了WebServices的基本概念.然后描述了WebServices架构下事务处理的设计.X/OpenDTP模型是一个广泛接受的标准,该文基于X/OpenDTP模型设计了WebServices架构中的短
针对办公自动化系统中邮件安全性要求,提出了加密和数字签名方法,该方法基于广泛使用的邮件加密软件PGP。本文详细的分析了组成该PGP算法的所有算法的安全漏洞,针对这些漏洞提出
Web商业化至今,搜索引擎始终是网络上被使用最多的服务项目.然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,传统的搜索引擎越来越不能满足人们的各种信息需求,主要