中文文本体裁分类中特征选择的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:gbnew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着万维网甚至企业内联网内信息量的不断增加和人们对个性化搜索的需求的增大,文本体裁分类在计算语言学中的重要性逐渐得到体现,文本体裁自动分类问题已成为当前计算语言学及传统语言学的研究热点之。 识别文本体裁是一项复杂的工作。体裁属于形式的范畴,是人类思维的抽象归纳,要对其进行准确概括和表述都有一定难度;而且中文文本体裁分类交叉于汉语修辞学与计算语言学之间,需要有较深的语言学功底和计算语言学理论基础作为支撑,这些都是体裁分类研究道路上必须要克服的障碍。另一方面,体裁分类作为文本分类的一个研究分支,从计算机实现角度而言,它与目前发展较为成熟的主题分类在分类模型和分类算法等方面并没有本质的区别,两者的区别主要集中在分类体系的确定与特征选择方面,主题分类为体裁分类研究的展开提供了重要条件。整体来看,体裁分类研究尚处于全面探索阶段的初期,其技术还不够成熟。而且,国内汉语体裁自动分类的研究工作也刚刚起步。 本文参照英语体裁分类以及主题分类机制,结合主题分类在特征选择方面的研究成果以及体裁分类在汉语修辞学方面的特殊性对体裁分类中的特征选择展开了较深入的研究实验,包括较全面的选取特征项,将主题分类中的传统降维公式:卡方统计量法、相关系数法以及权重公式:tf.idf应用到体裁分类中、根据体裁分类的特性对这些传统公式进行改进,在体裁分类中尝试使用潜在语义分析技术进行降维等。最后采用在主题分类中取得了较好分类效果的支持向量机技术进行体裁自动分类。分类实验在包含应用文、新闻、记叙文、说明文、议论文5类典型体裁类别,共1500篇文档的中文文本体裁语料库上实现。作为中文文本体裁自动分类研究方面的尝试,实验结果显示了中文文本体裁自动分类的可行性,并获得了较好的分类效果,但仍有很多更深入的研究工作有待展开。
其他文献
在科学技术高速发展的今天,计算机和Internet已经成为了人们生活中必不可少的要素。越来越多的产品以数字化的形式展现在人们面前,但随之而来的是日益严峻的版权纠纷问题。采
羽毛球运动是我国的重点夺金项目,在世界排名中居领先地位,占据着非常有力的位置。随着新规则的实施和竞争对手实力的增强,对我国羽毛球运动员提出了更高的要求,不仅要具备过硬的
图像压缩技术是多媒体技术研究的重点问题,其中嵌入式零树小波压缩算法又被认为是迄今为止最有效的压缩算法,但因为压缩过程是一个耗时的过程,所以为了更好地扩展嵌入式零树
由于量子计算有可能从根本上超越经典计算机的计算能力以及在信息处理方面的巨大潜力,量子计算机吸引了越来越多的人对其进行研究。量子电路作为量子计算机的一个基本计算模型
随着数字音乐技术的迅猛发展和手机等移动设备存储容量的增加,如何快速、有效地检索音乐信息成为迫切需要解决的问题。传统基于文本的检索方法,只能对有标注的数据信息进行检索
信息产业经过十几年的快速发展,软件系统的复杂度逐渐变高,系统集成的规模逐渐变大,造成了项目不成功的概率逐渐增高,怎么样将软件项目的失败率降低成了目前业界迫切需要攻破
随着Internet的发展,P2P网络作为一种新的网络应用模式,在工业界和学术界都受到了广泛的关注。当前,P2P网络中的搜索技术由于其灵活性和对动态环境的适应性,己经成为P2P网络
烧结为高炉炼铁提供原料,烧结矿产量的高低、质量的优劣都将直接影响到炼铁生产的产量、质量及能源消耗。烧结终点是烧结结束时的位置,作为判断烧结过程的重要参数之一。烧结
由于无线传感器网络节点计算能力、通信能力和能量供应能力的局限性,大规模、高密度传感器网络对路由拓扑控制提出了很高的要求。良好的拓扑结构,能够提高路由协议和MAC协议的
随着货币的电子化发展,信用卡在银行业务中所占的比例越来越大。信用卡业务的开发、应用、服务、管理的水准直接关系到银行的经济收益。通过对信用卡业务数据的分析、挖掘,可以