【摘 要】
:
随着网络的迅猛发展,自动信息处理越来越成为人们获取大量信息不可缺少的工具.文本自动分类作为文字信息处理的重要研究方向,它是指在特定的分类体系下,根据文本的内容自动判
论文部分内容阅读
随着网络的迅猛发展,自动信息处理越来越成为人们获取大量信息不可缺少的工具.文本自动分类作为文字信息处理的重要研究方向,它是指在特定的分类体系下,根据文本的内容自动判别文本类别的过程.该文对文本分类中所涉及的关键技术,包括向量空间模型(VSM)、特征提取和编码、BP神经网络训练方法等,进行了一些探讨和尝试.改进了传统的互信息定义,解决了各个类别样本数目不均衡问题,提出了自己的特征词条提取方法;在对特征词条编码的基础上,进行了文本编码,同时解决了各个类别的特征词条的数目不均衡对文本分类的影响,然后使用编码后的文本作为训练样本和测试样本,进行文本分类和测试.该文使用BP神经网络作为分类器实现了一个简单的文本分类系统,并得出了比较理想实验结果.通过实验系统说明了使用改进的互信息对文本进行编码、利用BP人工神经网络作为分类器是一种分类效果很好的文本分类方法.
其他文献
图的控制数γ(G),独立控制数i(G),(上)全无赘数(IRt(G))irt(G)和(上)无赘数(IR(G))ir(G)是重要的图结构参数,对它们的研究已经有了很长一段历史。关于控制数γ(G)和独立控制
数字水印是一种可以在开放的网络环境下保护版权和认证来源及完整性的新技术。本文系统地论述了数字水印的基本原理,以通信理论为基础分析了相关问题,阐述了水印方法的理论框架
医学图像处理是目前国际上的一个热门的研究领域,其中图像压缩、安全存储与安全传输是该领域应用的关键技术之一,而小波和神经网络是两种重要的工具.该文旨在完善小波和细胞
该文研究区间有理Bezier曲线、曲面的降阶逼近.根据区间有理Bezier曲线、曲面的特点,通过一系列数学变换,将其降阶问题转化为多项式的保上界降阶逼近,再应用线性规划和最优逼
反向工程,就是从实物样件获取产品数学模型描述的相关技术,它已经发展成为CAD/CAM中的一个相对独立的领域。反向工程有两个主要的研究内容:一是实物模型表面数据获取技术;二是曲面
本文利用多层优化方法研究了S-P-U/S-U通信系统,分别对单服务器单媒体、单服务器多媒体、多服务器单媒体、多服务器多媒体的S-P-U系统进行了研究,得到了若干双层和三层规划模
指数族是统计学中应用最广泛的分布族,它概括了许多常见的统计分角,特别是正态、二项、Poisson、Gamma等分布.已经有许多作者对指数族非线性模型进行了研究.Cook(1986)用微分
设(X,f)为一个动力系统.X的超空间是指X的所有非空闭子集构成的集合赋以Vietoris拓扑,它是一维流形和高维流形之间的一个重要的联系纽带.该文主要考虑紧致度量空间上的动力系
时态数据挖掘已成为数据挖掘领域一个重要分支和较新的研究方向。目前有关它的关联规则挖掘研究大多比较零散,缺乏统一的理论框架,而且由此所建立的模型及相应算法只是适用于某