【摘 要】
:
部队首长信箱的邮件含有丰富的信息,能够为部门机关总结工作,提高自身工作能力提供有力的信息支撑。随着邮件数量的剧增,人工对邮件的分类已经满足不了现实需求,实现邮件内容
论文部分内容阅读
部队首长信箱的邮件含有丰富的信息,能够为部门机关总结工作,提高自身工作能力提供有力的信息支撑。随着邮件数量的剧增,人工对邮件的分类已经满足不了现实需求,实现邮件内容的自动分类,能够减轻机关工作负担、提高分类效率,有一定现实意义。邮件内容分类是根据邮件标题和正文的信息,按照军事、政治、后勤、管理、祝福五个类别自动分类的过程。本文在提取邮件的标题和正文,构成邮件内容文本的基础上,通过中科院ICTCLAS分词系统对邮件内容文本进行了分词和去停用词处理,得到文本的原始特征集合;采用向量空间模型(VSM)将邮件内容文本表示成为计算机可以识别的数据向量;分析了CHI特征选取方法的缺点,提出一种改进型的CHI方法,降低了原始特征集合的维数;采用支持向量机(SVM)分类算法,选取径向基核函数(RBF),应用5-重交叉验证与网格搜索方法,得到最优的核函数参数,提出以最大分类间隔作为类别分类性度量,构造二叉树SVMs多分类模型,通过对文本数据的学习训练,得到邮件内容分类模型;利用模型对未知类别邮件文本进行分类。为了检验邮件内容分类方法的性能,以某基层团队2010-2012年度首长信箱邮件为数据源,选取656个邮件内容文本作为训练集,对232个邮件内容文本进行分类测试。测试结果表明,选取特征数目为200时,分类的总体性能最好,选用改进后的CHI方法比传统的CHI方法分类查全率高1.3%,分类查准率高0.8%;二叉树多分类方法分类效果接近DAG多分类方法,比一对一方法高0.9%,比一对多方法高2.6%。
其他文献
随着时代的发展科技的进步,航空航天活动在全世界范围内蓬勃发展。从最开始的月球着陆活动,到后来的金星和火星的探测活动,针对地球外的行星探索一直没有停止过。由于近地小行星
常规控制策略解决了样例无人机基本的飞行功能问题,但在复杂飞行环境下,当机载传感器发生故障时,势必会影响飞行品质,甚至威胁无人机飞行安全。为了提高无人机在复杂环境下的飞行
随着信息化、智能化、网络化的发展,嵌入式系统技术获得了广阔的发展空间,嵌入式系统已经遍及我们生活的方方面面,从工业控制到交通管理,从信息、家电到环境工程与自然,无不
随着我国经济的发展,用电量逐渐增加,火力发电带来的污染越来越严重。为了协调经济发展和环境保护,发展效率高、污染小的洁净煤发电技术势在必行。相对于普通火力发电机组来说,洁净煤发电技术热工过程更加复杂,控制难度更大,传统的控制方法难以获得期望的控制效果。自抗扰控制(ADRC, Active Disturbance Rejection Control)是近年来发展的一种新型实用控制技术,已经在众多领域得
嵌入式系统作为面向特定功能应用的专用计算机系统,随着信息技术的发展和用户需求的日益增长,嵌入式系统应用已深入到人们生活及工业生产的各个方面。与此同时,数字图像处理技术
约束在物理系统中是无处不在的,它可能以停机、饱和以及性能和安全规范等形式存在。在系统运行期间违反约束条件可能会导致系统性能的下降,严重情况下会危害或者损坏系统。受到
由于污损生物容易在海水管线内壁和海水过滤器网附着沉积,为此可利用超声波技术杀死海生物幼体,以防止其透过滤网进入海水系统成长,从而避免造成海水管道污染堵塞[1-2]。论文针
近年来,随着人们对多智能体协同控制关注度的不断提高,其应用领域也越来越广泛,如物理、自然科学和数学等等。现有的关于多智能体协同控制方面的研究,大部分都是基于连续控制设计
随着世界网络化进程的不断加快和日益加深,人员和物资流动也变得越来越频繁和便捷。这就使得传染病的传播扩散速度大大提高。与此同时,和生物病毒相比,计算机病毒借助Internet更
生物安全柜是处理危险性微生物时所用的箱形空气净化安全装置,是生物安全实验室的基础安全设施,对人员、产品和环境起着一次隔离的作用。近年来医疗卫生、疾病预防、环境监测