基于向量空间模型的自反馈的文本分类系统的研究与实现

被引量 : 50次 | 上传用户:hellolixing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的迅猛发展,信息分类已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息分类的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。 目前,向量空间模型是进行大规模文本处理的最通用模型,本文首先对向量空间模型进行了研究和探讨,包括:向量空间模型的基本概念、特征项的选择、特征项的提取算法等等。 然后,本文介绍并比较了几种常用的基于向量空间模型的文本分类算法,同时描述了具体的算法步骤。 针对训练样本收集整理工作困难的问题,本文重点探讨了反馈方法与文本分类算法结合的可能性,并具体提出了一种实际可行的结合反馈方法的文本分类系统,该分类系统由训练过程、分类过程和反馈过程三部分组成,系统采用细致的模块化设计,具有很强的扩展性和灵活性。在本文提出并实现的文本分类系统上,我们进行了一系列的测试工作,并得到了严格的实验数据,这些实验数据都表明:在训练样本不充分的情况下,结合反馈方法的文本分类系统可以获得事半功倍的效果。 今后,可以在该文本分类系统的基础上进行有关向量空间模型、机器学习方法的进一步研究。
其他文献
人际交往是个体在社会生活中必不可少的组成部分和生活方式,然而大学生人际关系的现状不容乐观,能否妥善处理好人际交往问题,直接关系到他们学习和生活的质量。本文以中国传统人
商业银行的柜面操作风险是指在银行前台柜面业务中,因人员、系统、流程及外部事件等因素导致银行或客户资金财产造成损失的可能性。柜面操作风险作为操作风险的重要组成部分,
新基督教右翼在美国的崛起似乎势不可挡。形成这种势头因素很多,但从根本上,还是其神学目的一用基督教重建美国社会,不断给其加油和鞭策。基督教重建主义本质上是神权统治。他们
辽宁省主体功能区分为优化开发、重点开发、限制开发和禁止开发4类主体功能区,划分这4类主体功能区需通过省级区划的指标体系来确定;主体功能区规划包括10个指标项。其中,经
提出了一种基于深度学习技术的遥感分类方法,它能有效解决中分辨率影像在分类过程中出现的像元混分问题。研究选用2016年5月12日武汉市Landsat 7 ETM+遥感影像,基于GoogleNet
文章分析了当前高职机电一体化专业面临的主要问题,提出了一系列“以做带学”的创新策略手段,并针对高职机电一体化专业“以做带学”创新发展做了思考。
目的了解社区临终关怀中家属对癌症晚期患者终末期治疗与抢救决策的现实与意愿,为社区有效开展临终关怀服务提供指引。方法 2013年4—9月,采用质性研究中的现象学研究方法,对
利率市场化改革的实质性推进从根本上改变着商业银行的整体生态环境,处于弱势地位的中小银行所面临的外部环境冲击与压力更加难以预测。本文从利率市场化改革的进程出发,分析
活性粉末混凝土的单轴受压应力应变关系是RPC最基本的物理力学性能,是研究混凝土结构承载力和变形的主要依据,也是分析构件极限承载力和进行非线性全过程分析时必不可少的材
介绍了220kV长电缆一变电站避雷器的配置及计算方法。