基于改进向量空间模型的中文文本分类研究

被引量 : 0次 | 上传用户:wojiushixinyonghu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术尤其是互联网相关技术的发展与成熟,这种开放的、自由的数据共享和流动方式造成了巨大的信息积累。一方面,人们渴望能够掌握足够充分的信息;但是另一方面,想要快速而且高效地从海量的、杂乱的数据中获取所需要的信息正在变得越来越困难,出现所谓的“信息迷向”的现象。大规模层面上的文本处理越来越成为一个难题,因此,社会迫切需要一种大规模的文本信息处理手段,文本自动分类技术为大规模信息处理提供了技术支持。本文在对比了国内外文本分类技术发展现状的基础上,详细地介绍了基于向量空间模型的文本分类方法中的关键技术,针对影响中文文本分类结果的几个关键因素作出了分析。为了解决中文文本分词之后形成的特征空间存在的高纬度和稀疏性问题,本文提出了一种四维向量空间模型,利用支持向量机算法(SVM)设计相应实验验证该模型的有效性。同时,本文通过改进传统的特征权值计算公式,设计了一种中文类别词典(SCC-Dict)自动构建的方法,解决了在缺少专家经验时基于类别词典分词法无法进行的问题。在类别词典自动构建法以及中文文本四维向量空间模型的基础上,本文设计并实现了一个面向新闻的中文本分类系统。该系统主要包含存储模块、文本预处理模块、分词模块、SCC-Dict构建模块、向量映射模块和分类模块。系统设计为动态形式,即面对每一次分类过程,利用实时信息来新建分类器,而不依赖于以往的模型和陈旧的样本。最后,通过实验表明文本所采用的分类方法在分类准确率和分类速度上均有一定的提高,该方法已经被应用于实际工程项目。
其他文献
就教师的专业成长来说,学校文化场域是教师专业成长的主要载体。学校文化场域中作用于教师成长的力量结构包括行政力量、经济力量、家庭力量、同侪力量、学生力量及教师自我,
建立并持续不断改善我国电力市场环境离不开电力体制的改革及电力市场化运营的快速发展.随着国家电网建设的飞速发展,建设 变电站和变电站施工阶段的工程造价问题成为了国家
孙中山结合中国的国情与外国的经验提出了五权宪法思想,并提出监察权独立于行政权、立法权、司法权、考试权等治权的思想理论。监察权带有政治防腐的作用,可弥补司法监督的不
文化产业因为其资源占用率低,科技附加值高,效益产出量大而有足够的理由被认定为21世纪的朝阳产业。特别在全球历经了08年金融海啸之后,各国经济纷纷处于衰退的状态,奎今日本
在经济和技术全球化的趋势下,科技成果转化水平已经成为各个国家提升其综合竞争力、发展生产力、促进经济增长的重要因素之一,而高校科技成果转化在这其中发挥的作用尤其重要
网络信息安全法的调整方法是指网络信息安全法作为一个独立的法律体系所适用的调整方法。依照网络信息安全法律关系的形成和完整状态、介入法律关系的权利 (权力 )性质、主体
为探究太原市冬季PM2.5成因,利用位于太原市大气环境综合观测研究站的单颗粒气溶胶质谱仪(SPAMS),结合气象数据,对2019年1月1日-1月31日期间的PM2.5化学组成进行了分析,定量评
随着智能配电网改造的不断扩展,建立起与之相适应配电自动化系统精益运维体系,是发挥坚强智能配电网作用和效益、为用户提供更加可靠智能的供电服务的迫切需要。保障高可靠供
示波器是电子工程师的眼睛,是使用最广泛的测量仪器。选择示波器作实践教学系统,帮助仪器专业的学生了解仪器系统的构成,硬件设计的关键模块,仪器互连的接口技术,有很强的现
在教育领域中,高等教育显得尤为复杂和多样。大学教育活动包括学习活动、教学活动、科研活动,而三者又互相交融和影响,变得难以区分。通过不同的理论视角对大学教育活动进行