基于范例推理的文本自动分类研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:rdx200901as
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  迅猛发展的现代科技带来了大量的信息资料。如何对这些信息资料进行有效地管理成为了现代科学的一个重要问题。   本文将基于范例推理CBR技术应用到文本自动分类中,并对范例表示进行了研究,实现了基于范例推理的文本自动分类系统和Email自动分类系统。文章针对目前常规的向量空间模型VSM 文档表示方法不能反映概念的问题,提出了用VSM和词共现共同表示文档的方法,用词共现来表达文档的概念信息。将训练集中的每一类文档聚类,聚类后的结果作为范例存入范例库中,然后用最近邻方法进行分类。由于Email具有文本长度短、内容覆盖面大的特点,用关键词匹配的方法很难取得比较好的效果,文章采用潜在语义分析LSA的方法,利用矩阵的奇异值分解理论SVD来获得了Email的概念空间,在此概念空间上表示Email作为范例,再用最近邻方法分类。实验结果验证了本文提出的方法是可行的和有效的。 
其他文献
未知环境下移动机器人的导航控制涉及大量的图像数据处理。为保证导航控制系统的有效性与实时性,需要使用分布式计算系统对图像进行并行处理。 任务调度是分布式计算系统
本文着眼于XML查询优化与处理,提出了一种新的XML查询处理方法:混合模式XML查询处理。 首先,给出了涉及XML查询处理的基本知识:查询XML文档的几种方法、XML数据模型和代数操作
  本文在分析当前电信企业运营支撑系统现状的基础上,提出了新一代电信运营系统设计的思路,同时参照电信运营的标准化工具eTOM模型,制定了新型电信运营支撑系统框架,并给出了基
航空公司的生产计划编制是一项非常艰巨而重要的工作,其实质在于通过周密的组织和精心的计划,实现各生产资源的优化配置。生产计划编制的质量和效率将直接影响到航空公司生产运
短消息增值业务系统在通信产业中正在占据越来越重要的地位。论文以基于短消息的增值业务技术为背景,将分布式对象模型、多进程集中式业务控制机制、多层次软构件体系结构相结
入侵检测是对传统网络安全防御机制的一种补充,由于提高了网络与系统安全的主动保护能力,目前已成为网络安全领域中的重要研究方向之一。但是传统的入侵检测系统存在着自适应
本文首先针对基于点物体的空间主方向推理进行讨论,在此基础上深化讨论对象把基于点物体的主方向关系推理引深为基于物体的MBR近似情况下的主方向关系推理的问题。结合著名
在道路网上精确计算点对点最短路径是图论算法的众多实际应用之一。经典的Dijkstra算法及其变种双向Dijkstra搜索算法在大规模道路网上过于缓慢,早已力不从心。有幸的是在过
本文首先从FMIS的产生背景出发,提出了软件柔性和FMIS的概念,对FMIS的柔性特性、FMIS柔性的层次、FMIS柔性的表现形式、柔性软件的适应范围等进行深入探讨,对FMIS开发中的一些
当我们越来越依靠信息基础设施作为国防、银行、电讯、运输、电力及其他有关国计民生的社会系统的支撑措施时,我们的社会就面临着承担入侵这些社会系统所带来的严重的灾难性后