中文文本分类技术研究

被引量 : 22次 | 上传用户:yindiend
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的不断发展和成熟,各种数字化的信息越来越多并且还在不断增长,面对海量信息,人们已经不能简单地靠人工来处理所有的信息,况且手工分类已经对此无能为力,如何从巨量的信息中挖掘出用户感兴趣的信息已经成为当今研究的重要课题。而文本自动分类能够较好的解决大量文档信息归类的问题,并成为解决该问题的一项关键技术。目前对文本自动分类技术的研究主要集中在文本的表示、特征的选择和分类算法的改进这三个主要的研究方向。最大熵模型实际上是一个带约束的最优化问题。20世纪50年代E.T.Jaynes开创性的将最大熵原理作为一种原则或者方法应用于各个科技领域,也使信息熵的概念和原理走出了热力学的领域。而且最大熵模型是一个比较普遍的统计建模技术,自然语言处理中很多问题都可以归结为统计分类问题,很多机器学习方法在这里都能找到应用。最大熵具有较强的知识表达能力,它在数学上是一个十分完美的模型,被应用到自然语言处理领域后也取得了较好的成绩,因此被研究者们广泛的使用。本课题主要针对在中文文本分类任务中涉及到的特征生成(文本分词)和特征的选择算法进行了分析和研究。具体来说,论文首先阐述了中文文本的分词技术和分词算法,特征选择算法和几种经典的文本分类算法,接下来主要研究分析了统计语言模型,最大熵模型及相关的平滑技术和迭代算法,然后详细讨论了最大熵应用于文本分类任务中存在的问题,在深入研究最大熵理论的基础上,引入了不等式最大熵模型,将其应用于文本分类,并分析了现有特征选择方法生成特征数目过多而造成分类时间和精度不高等缺点,提出将信息增益、互信息及卡方统计这几种方法合理的结合起来进行特征选择的改进算法;实验也证明,这种基于不等式最大熵的特征选择算法是有效地,并具有较强的推广能力。最后阐述了中文文本原始特征集合的生成方法,即研究了如何通过基于无词典机制的中文自动分词方法,并结合汉语自身独有的特点,得到初始的特征集合,最后提出了基于无词典分词机制的中文自动分词算法。并通过实验验证了分词算法的高效性。最后,对本论文的内容进行了总结,并对中文文本分类涉及的特征选择方法,分词技术以及最大熵模型将来的应用和发展进行了展望。
其他文献
<正> 养鱼是我国内陆水体中重要的人类经济活动之一,在大多数的中小型湖泊和水库,都放养着各种经济鱼类,以尽可能地利用水中的各类饵料生物资源。但是这种生产性养鱼活动势必
本文主要报道蒙古红鲌和翘嘴红鲌对放养鳙、鲢鱼种的危害性及控制其种群发展的途径。通过肠道内食物的检查,发现不同大小的蒙古红鲌和翘嘴红鲌与所吞食“家鱼”鱼种规格的大
冰川是环境作用的结果,冰芯中保存了小量的大气沉降物,这些大气沉降物记录了当时的环境变化状况。通过对冰芯的研究,就可以反映出一个时间段的环境变化。钻自于西昆仑山崇测
本文以城市公园外边界作为研究对象。首先,收集总结关于边界的有关理论,对风景园林学科中的边界进行进一步诠释。在此基础上,将理论运用于实际观察和调研,运用归纳的调查研究
大学校园是一个特殊且复杂的环境,涉及到不同人群、多种环境场所营造等。针对我国大学校园景观设计现状及存在的历史感、文化感、认同感、可识别性缺失等方面的问题,本文从VI
随着计算机技术的迅猛发展,人与计算机之间的交流也越来越多样化。而一些传统的人机交流方式,比如键盘,鼠标,麦克风等,已经不能完全满足需要。新的人机交流方式与传统的人机
近年来,中国药品生物制品检定所研制并在全国推广了药品检测车,其中配备了以近红外光谱仪为主的多种快速检验设备,用于对市场上的药品进行现场筛查。在近红外药品快速筛查系
目的:基于国家973计划“心血管血栓性疾病与‘瘀毒’病因学的系统研究”,通过现况调查的流行病学方法,观察急性冠脉综合征介入治疗后中医证型分布规律、证型变化,探讨介入后
近代报刊中的香烟广告比传统的信息广告带有更多刺激消费者的元素。这些香烟广告制作精美,并配以更具说服性的图画,将香烟这一日常生活的对象纳入了更加广阔的叙事空间中。它
土地利用是人类活动最直接的一种表现形式,不合理的土地利用活动和管理模式会导致土壤侵蚀和营养物随地表径流流失,从而造成流域的大面积非点源污染。从非点源污染的形成机制