【摘 要】
:
随着web技术和信息技术的快速发展,如何从结构来源复杂的数据海洋中进行信息抽取和信息检索一个困难而又有重要实际用途的研究课题。文本分类能够有效处理和组织文本数据,方
论文部分内容阅读
随着web技术和信息技术的快速发展,如何从结构来源复杂的数据海洋中进行信息抽取和信息检索一个困难而又有重要实际用途的研究课题。文本分类能够有效处理和组织文本数据,方便快速、准确地定位所需的信息。本文主要对文本分类及其相关技术做了分析,并就如何将文本分类技术更好的用于决策支持做了研究,具体包括以下三个方面:1、文本分类相关技术的研究本文首先阐述了文本分类的过程和相关技术,包括文本预处理、中文分词、向量空间模型、特征项选择、特征项权重计算等。2、基于信息增益权值的文本分类模型(1)本文在经典TF-IDF的基础上,结合特征词在类别间的分布情况,改进了IDF的算法,并进一步利用信息增益和类内信息分布熵因子修正TF-IDF算法的不足,提高文本表示的准确度。(2)基于信息增益权值的文本分类算法。该算法的主要思想:如果特征词在新的文本中出现,则计算特征词对于特征词在文本空间的信息增益的贡献度,贡献度最大的类别就是文本的所属类别。3、可拔插文本分类系统在电子政务平台中的应用的研究本文提出的可拔插文本分类系统,以文本分类为基础,自动、半自动的将分类系统分离出应用系统,并通过可插拔配置方式部署到应用系统上,具有可重用性高、使用方便的特点。
其他文献
物联网通过传感器、视频识别技术和全球定位系统等技术,实时采集需要监控、连接、互动的物理过程中的声、光、热、电、力学、化学、生物、位置等各种需要的信息。通过各种可能
随着经济的飞速发展,城市的发展日新月异,传统的城市管理方式已经不能满足城市现代化建设的发展速度。如何实现市政公用地上、地下基础设施的数字化和管理的智能化,如何提高面向
图像是多媒体信息中应用最广泛的载体,其检索也是信息检索领域中最受关注的热点之一。基于内容的图像检索通过提取图像视觉特征实现检索,但图像视觉特征与人对图像的理解存在差
随着大数据时代的来临和现代网络技术的发展,图像在现实社会和网络中更加普及,给人们的通讯和交流带来了前所未有的便利。但是由于图像的伪造和篡改行为的出现,现代图像的真实性
Web服务组合是实现快速服务增值与软件重用的重要方式。近年来,随着分布式对象技术和XML等核心技术的发展以及WSDL、UDDI、SOAP等相关标准和协议的不断完善,Web服务以其高度的
图像分割一直是计算机视觉和模式识别等领域内一个极具挑战性的研究问题。一般情况下,图像分割的目的是找到一幅图像中具有语义一致性的区域并将其彼此分割。为了实现这个目
Ad hoc网络是一种由一组无线节点组成的,没有预设基础设施支撑的自组织可重构的多跳无线网络。该网络的网络拓扑、信道环境和业务模式都随着节点的移动而发生改变。因其组网快
近些年,世界各国自然灾害、人为灾害频发,面对这些突发事件时,如何快速地组建高效、可靠的应急通信网络为救援工作提供服务已经成为值得深入研究解决的技术问题。与国外发达
移动互联网技术迅速发展,移动智能终端设备层出不穷,论文分析了当前主流的智能终端以及当前移动跨平台中间产品,平台多样性与移动应用程序快速发展的需要构成一对矛盾。应用程序
U2TP是基于UML2.0的测试建模语言,对系统相关特征和测试模型特征分别进行建模和描述。在系统建模阶段使用U2TP将测试信息集成,不仅可以在系统建模初期就获得对测试的整体观念,还