【摘 要】
:
随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,作者需要对网络中纷繁芜杂的信息进行合理的组织与分类。本文的目标就是以文本信息处理为背景,从理论
论文部分内容阅读
随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,作者需要对网络中纷繁芜杂的信息进行合理的组织与分类。本文的目标就是以文本信息处理为背景,从理论及应用两个层次对文本信息的分类方法进行了较为深入的研究。 首先,本文研究分析文本分类器的总体模型,包括:信息预处理、特征表示、特征提取。重点研究分析了特征表示与特征提取技术,文本的分类算法。 其次,认真研究了统计学习理论的主要内容和SVM算法的基本原理。并且就SVM的训练算法、分类算法、多类分类算法、核函数等热点问题分别加以讨论。阐述了SVM研究和应用现状,以及所面临的问题。 最后详细分析研究了一个基于SVM的文本分类器模型。该模型通过计算训练集中的词条和类别的加权互信息,获得文本特征集,然后通过智能分词和统计方法获得测试文本在VSM空间中的TF-IDF函数表示,通过计算语义相似度获得文本的语义信息,对文本向量进行加权。训练文本集按照上面方法进行向量表示后,作为支持向量机的学习向量进行训练,从而获得文本分类的支持向量。对于将要进行分类的文本,也按照上面的方法进行向量化,然后通过支持向量机判别该文本的类别。在该模型的基础上,并以系统中的多类分类为例,探讨了SVM的核函数选择以及惩罚参数C的确定,并结合实验加以验证。
其他文献
目的:探讨抗生素在治疗上呼吸道感染中的临床应用效果。方法:选择2013年12月~2014年6月在我院进行治疗的上呼吸道感染患者79例,统计并记录患者抗生素应用品种、应用途径、联
莫扎特作为18世纪欧洲维也纳古典乐派开创者之一,一生创作了大量音乐作品,体裁几乎涉及了音乐创作的所有领域,取得了辉煌的成就,对后世的音乐创作产生了巨大的影响。本文着重
目前我国的许多省市都在开展双语教育的试点,并且大有燎原之势。我们欣喜地看到,双语教育作为一种新型的外语教学方式,正在迅速地改变英语的教与学。然而,我国的双语教育片面地追
由于土工膜因缺陷导致的渗漏问题可能对土工膜防渗土石坝工程安全造成隐患,为此模拟不同的土工膜缺陷大小和位置,分别采用剔除单元法和渗透系数放大法对存在缺陷的土工膜坝面
Maven是目前Java项目的主要项目管理工具,它具有管理方便、容易扩展的特点。该文简单介绍了Maven的原理、功能和生命周期等概念,重点结合Maven在网络管理软件产品中的实例应
<正>爱美之心人皆有之,尤其对于现代女性而言,提升外在形象是一门很重要的课程。那么,在选购和使用化妆美容护肤用品时,应该注意哪些问题呢?护肤品中的化学物质究竟是美肤还
本研究通过对管理人员进行卡特尔个性测验 ,研究管理人员的创造性人格特征及影响创造性人格特征形成的主要因素
以传统封闭式学习活动与题目为主要测试工具的标准化纸笔测验,走过了漫长的发展阶段。作为其反叛与补充形式的开放性活动,源于20世纪60、70年代医学领域的(PBL),其主旨是让学生
区域旅游业空间布局是旅游要素在空间上的投影,体现了要素间在地域上的组合和关联。因此,旅游要素的识别是研究旅游业空间布局演变的基础。很多学者对此提出了不同的见解。如Gu
以嫩江上游诺敏河古城子水文站以上集水区为研究对象,利用分布式水文模型SWAT(Soil and WaterAssessment Tool),对研究区进行6种子流域划分,研究不同时间尺度上径流模拟随流