中文文本分类技术研究

被引量 : 22次 | 上传用户：yindiend

【摘要】

：

随着Internet技术的不断发展和成熟,各种数字化的信息越来越多并且还在不断增长,面对海量信息,人们已经不能简单地靠人工来处理所有的信息,况且手工分类已经对此无能为力,如

【作者】

：

李晓红

【发表日期】

：

2009年01期

【关键词】

：

中文文本分类文本分词特征选择算法最大熵模型不等式最大熵模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet技术的不断发展和成熟,各种数字化的信息越来越多并且还在不断增长,面对海量信息,人们已经不能简单地靠人工来处理所有的信息,况且手工分类已经对此无能为力,如何从巨量的信息中挖掘出用户感兴趣的信息已经成为当今研究的重要课题。而文本自动分类能够较好的解决大量文档信息归类的问题,并成为解决该问题的一项关键技术。目前对文本自动分类技术的研究主要集中在文本的表示、特征的选择和分类算法的改进这三个主要的研究方向。最大熵模型实际上是一个带约束的最优化问题。20世纪50年代E.T.Jaynes开创性的将最大熵原理作为一种原则或者方法应用于各个科技领域,也使信息熵的概念和原理走出了热力学的领域。而且最大熵模型是一个比较普遍的统计建模技术,自然语言处理中很多问题都可以归结为统计分类问题,很多机器学习方法在这里都能找到应用。最大熵具有较强的知识表达能力,它在数学上是一个十分完美的模型,被应用到自然语言处理领域后也取得了较好的成绩,因此被研究者们广泛的使用。本课题主要针对在中文文本分类任务中涉及到的特征生成(文本分词)和特征的选择算法进行了分析和研究。具体来说,论文首先阐述了中文文本的分词技术和分词算法,特征选择算法和几种经典的文本分类算法,接下来主要研究分析了统计语言模型,最大熵模型及相关的平滑技术和迭代算法,然后详细讨论了最大熵应用于文本分类任务中存在的问题,在深入研究最大熵理论的基础上,引入了不等式最大熵模型,将其应用于文本分类,并分析了现有特征选择方法生成特征数目过多而造成分类时间和精度不高等缺点,提出将信息增益、互信息及卡方统计这几种方法合理的结合起来进行特征选择的改进算法;实验也证明,这种基于不等式最大熵的特征选择算法是有效地,并具有较强的推广能力。最后阐述了中文文本原始特征集合的生成方法,即研究了如何通过基于无词典机制的中文自动分词方法,并结合汉语自身独有的特点,得到初始的特征集合,最后提出了基于无词典分词机制的中文自动分词算法。并通过实验验证了分词算法的高效性。最后,对本论文的内容进行了总结,并对中文文本分类涉及的特征选择方法,分词技术以及最大熵模型将来的应用和发展进行了展望。

其他文献

养鱼对武汉东湖生态系的影响

<正> 养鱼是我国内陆水体中重要的人类经济活动之一,在大多数的中小型湖泊和水库,都放养着各种经济鱼类,以尽可能地利用水中的各类饵料生物资源。但是这种生产性养鱼活动势必

期刊

水生维管束植物水生态系统渔业

武昌东湖蒙古红(鱼白)和翘嘴红(鱼白)的食性及其种群控制问题的研究

本文主要报道蒙古红鲌和翘嘴红鲌对放养鳙、鲢鱼种的危害性及控制其种群发展的途径。通过肠道内食物的检查,发现不同大小的蒙古红鲌和翘嘴红鲌与所吞食“家鱼”鱼种规格的大

期刊

食物组成朱志荣武昌东湖种群控制

塔克拉玛干沙漠对流层中上部大气尘埃变化趋势及其成因分析

冰川是环境作用的结果,冰芯中保存了小量的大气沉降物,这些大气沉降物记录了当时的环境变化状况。通过对冰芯的研究,就可以反映出一个时间段的环境变化。钻自于西昆仑山崇测

学位

冰芯记录尘埃沉积对流层中上部大气尘埃通量持续下降

整形与破缺结合之美——城市公园外边界空间设计初探

本文以城市公园外边界作为研究对象。首先,收集总结关于边界的有关理论,对风景园林学科中的边界进行进一步诠释。在此基础上,将理论运用于实际观察和调研,运用归纳的调查研究

学位

边界空间城市意象功能文化艺术

大学校园景观VI设计研究

大学校园是一个特殊且复杂的环境,涉及到不同人群、多种环境场所营造等。针对我国大学校园景观设计现状及存在的历史感、文化感、认同感、可识别性缺失等方面的问题,本文从VI

学位

VI设计景观VI景观符号学可识别性

基于肤色分割和Camshift的手势识别研究

随着计算机技术的迅猛发展,人与计算机之间的交流也越来越多样化。而一些传统的人机交流方式,比如键盘,鼠标,麦克风等,已经不能完全满足需要。新的人机交流方式与传统的人机

学位

手势识别手势跟踪肤色分割Camshift

通用性近红外模型的验证和维护

近年来,中国药品生物制品检定所研制并在全国推广了药品检测车,其中配备了以近红外光谱仪为主的多种快速检验设备,用于对市场上的药品进行现场筛查。在近红外药品快速筛查系

学位

通用性近红外模型模型评价模型维护和更新PDS算法

急性冠脉综合征介入术后中医证型及理化指标的研究

目的:基于国家973计划“心血管血栓性疾病与‘瘀毒’病因学的系统研究”,通过现况调查的流行病学方法,观察急性冠脉综合征介入治疗后中医证型分布规律、证型变化,探讨介入后

学位

急性冠脉综合征介入术后证型理化指标Hs-CRP

近代香烟广告的文化解读

近代报刊中的香烟广告比传统的信息广告带有更多刺激消费者的元素。这些香烟广告制作精美,并配以更具说服性的图画,将香烟这一日常生活的对象纳入了更加广阔的叙事空间中。它

学位

香烟广告消费文化性别话语本土化民族化

梁子湖流域土地利用变化对流域水环境的影响

土地利用是人类活动最直接的一种表现形式,不合理的土地利用活动和管理模式会导致土壤侵蚀和营养物随地表径流流失,从而造成流域的大面积非点源污染。从非点源污染的形成机制

学位

梁子湖流域土地利用水环境景观格局

中文文本分类技术研究

其他学术论文