基于自适应中文分词和近似SVM的文本分类算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户：lenvy11

【摘要】

：

中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。基于二元统计模型的

【作者】

：

冯永李华钟将叶春晓

【机构】

：

重庆大学计算机学院

【出处】

：

计算机科学

【发表日期】

：

2010年01期

【关键词】

：

自适应中文分词近似支持向量机文本分类知识管理

【基金项目】

：

重庆市自然科学基金(2008BB2183);中国博士后科学基金(20080440699);国家社会科学基金(ACA07004-08)资助

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。基于二元统计模型的分词算法能很好地适应不同的语料信息,且时间和精度都能满足文本知识管理的应用需要。近似支持向量机是将问题归结成仅含线性等式约束的二次规划问题,该算法的时间复杂度和空间复杂度比传统SVM算法的均有降低。在利用自适应分词算法进行分词的基础上,再利用近似支持向量机进行文本分类。实验表明,该方法能够自动适应行业领域的知识管理,且满足文本知识管理对训练时间敏感和需要处理大量文本的苛刻环境要求,从而具备较大的实用价值。

其他文献

我国现行三种医疗保险制度的现状及并轨的框架研究

根据我国城乡三种基本医疗保险制度的现状，借鉴国际全民医保的经验，结合目前我国社会经济发展的状况，立足体现社会公平，把享受基本医疗保障作为公民的基本权利，在当前的客观条件下

期刊

医疗制度国际经验并轨框架

学生视野下对中学体育教师课堂问题行为结构研究

课堂是教师进行教学活动的主要场所,教师在课堂上表现出来的一些违反教育教学规律以及教师职业道德的行为(例如：玩手机,打骂学生等),不仅妨碍课堂教学的正常进行,同时也会对学

学位

问题行为体育课堂教师教育因素分析

二十世纪最可怕的一次化学灾祸──印度博帕乐毒气泄露事故

期刊

农药厂储气罐美国联合碳化物公司异氰酸甲酯博帕尔事故泄露事故二十世纪

分布式数据库设计方法学

本文综述分布式数据库设计方法学。分布设计可以自顶向下或自底向上进行,第一种方法象征着从头开始开发分布式数据库,第二种方法象征着通过聚集现存数据库而开发多数据库。沿

期刊

分布式数据库数据库设计段映射冗余分配集中式数据库方法学

住房资产和股票资产财富效应的实证研究:四川例证

基于1992~2007年相关数据的实证分析表明,四川省居民住房资产和股票资产的当期财富效应微弱;对未来的财富效应逐步显现;并且股票资产财富效应大于住房资产财富效应。为了更好

期刊

住房资产股票资产财富效应四川省

贵州省产业结构与经济增长关系实证研究

对贵州省产业结构与经济增长之间关系的研究表明:贵州省产业结构变动与经济增长之间存在着显著的相关性,第二、三产业是目前该省经济增长的主要支撑,其中第二产业中的工业增

期刊

贵州省产业结构经济增长实证研究

贵州少数民族文化旅游开发的对策研究

贵州地处云贵高原,是一个多民族聚居的省份,历史上是"驿道所经"之地,49个民族(其中有48个少数民族)以大杂居和小聚居的形式居住其间。民族区域内封闭与交往并存,民族文化中个

期刊

少数民族文化文化旅游旅游开发对策

乡村旅游品牌战略研究——以苏南为例

苏南地区乡村旅游在开发和发展中以起点高、投入大和规范性强的特点而取得了可喜的成绩。在此基础上进行品牌建设可谓意义重大,也是乡村旅游进入可持续发展的重要举措。品牌

期刊

乡村旅游品牌战略苏南地区

政府解决进城务工随迁子女教育问题的逻辑解读——基于对2005—2014年政府工作报告的文本分析

以2005—2014年政府工作报告中涉及随迁子女教育问题的表述进行文本和话语分析,勾勒出政府解决该问题的行动逻辑:我国政府在态度上表现为越来越重视该社会问题;在工作重点上

期刊

随迁子女教育问题政府逻辑政府工作报告异地升学

教学艺术的落脚点是教学内容

<正>教师应以怎样的姿态来确定一堂课的教学任务呢?欧阳代娜老师的回答是:"把我对教材的理解教给学生"。"我对教材的理解"包括理解的结论和理解的过程,"把我对教材的理解教给

期刊

教学内容阅读方法

基于自适应中文分词和近似SVM的文本分类算法

其他学术论文