基于文本内容的自动文本分类方法的研究

来源 :杭州电子工业学院 杭州电子科技大学 | 被引量 : 0次 | 上传用户:sxxwmb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文的第1章概述了自动文本分类技术的产生背景以及现实意义,给出了自动文本分类问题的描述和评估方法,并介绍了国外自动文本分类技术的发展状况,第2章综述了中文自动文本分类技术的发展状况,并介绍了几种主流的自动文本分类的算法.第3章介绍了自动文本分类的关键技术,分别对文本的表示、特征项的抽取、训练方法与分类算法、阈值的确定做了较为详细的阐述.第4章提出了一种新的分类算法——基于文本内容的预知重——去噪声算法,论文就该算法的特点在以下几个方面展开:1.阐述了"基于文本内容"的概念:2.提出了核心词的概念,并提出了建立核心词词库的标准和方法;3.提出了"词对"模型及其构造方法,详细阐述了如何利用"词对"模型实现预加重——去噪声,以获得更具分类价值的分类特征;4.提出了待分文本中的词频因子的概念,以反映持分文本中的核心词的频率,保证提取的分类特征更加准确地代表待分文本;5.最后提出了基于文本内容分类的具体算法.第5章给出了该算法的实验结果,并同其他分类算法的结果进行了比较,给出了相应的结论.
其他文献
该文首先介绍了网络管理系统的一些基本概念和原理,分析了现有系统中存在的问题,指出了目前的研究热点.并从以下几个方面展开研究工作:分布式系统管理的策略规范的研究受到了
该文在对现有各种移动代理平台及其安全解决方案充分研究的基础上,从总结移动代理安全保障技术入手,综合考虑各种移动代理应用环境及安全需求,结合现有体系结构的设计优点,提
该文采用了设计模式思想和组件技术,提出了一种安防系统平台的设计.该平台的内容包括:在所有的安防设备都提供通信接口的基础上,将安防设备以星型或者总线型的方式连接起来.
基于软件自动化的考虑,在深入研究指称语义和Monad的基础上,给出了指称语义的转换方法和Monad的转换方法.具体给出了从直接指称语义到接续指称语义的转换方法,给出了从接续指
该文首先比较详细地讨论了控制系统的发展变化过程,在此基础上提出了一种全新的计算机控制系统一网络控制系统NCS,并对其结构模型进行了比较详细地研究.网络控制系统NCS继承
该文主要就动态联盟协同项目管理系统体系结构;动态联盟组织内项目跟踪模型;动态联盟环境下协同项目的成本控制问题进行了研究.文中结合动态联盟组织运行模式,把联盟组织结构
要随着计算机和宽带网络技术日新月异的发展,以多媒体通信为主体的信息网络已成为世界关注的热点.尤其是因特网(Internet)的巨大成功,使IP成为未来信息网络的支柱技术,以IP为
该文所取得的主要成果和创造性工作如下:1.提出了基于二次熵的互信息QEMI特征选取的方法.特征选取是文本分类挖掘中的关键技术,是文本分类的基础.该文以广义信息论为理论基础,通
蜜罐(Honeypot)是近几年才发展起来的一种主动安全技术。它设置一个专门让黑客攻击的应用系统,以记录黑客的活动,便于我们了解黑客的攻击方式和手段,发现潜在的威胁。 论文对
多屏互动媒体中心是近年来兴起的一种多媒体应用软件。它具有一般媒体中心软件的媒体库管理和多媒体展示的功能,同时可通过局域网与其它多种媒体设备分享多媒体内容。本文基于