中文文本体裁分类中特征选择的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户：gbnew

【摘要】

：

近年来随着万维网甚至企业内联网内信息量的不断增加和人们对个性化搜索的需求的增大，文本体裁分类在计算语言学中的重要性逐渐得到体现，文本体裁自动分类问题已成为当前计算语

【作者】

：

邓琦

【机构】

：

广西大学

【出处】

：

广西大学

【发表日期】

：

2008年期

【关键词】

：

中文文本特征选择体裁分类自动分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来随着万维网甚至企业内联网内信息量的不断增加和人们对个性化搜索的需求的增大，文本体裁分类在计算语言学中的重要性逐渐得到体现，文本体裁自动分类问题已成为当前计算语言学及传统语言学的研究热点之。识别文本体裁是一项复杂的工作。体裁属于形式的范畴，是人类思维的抽象归纳，要对其进行准确概括和表述都有一定难度；而且中文文本体裁分类交叉于汉语修辞学与计算语言学之间，需要有较深的语言学功底和计算语言学理论基础作为支撑，这些都是体裁分类研究道路上必须要克服的障碍。另一方面，体裁分类作为文本分类的一个研究分支，从计算机实现角度而言，它与目前发展较为成熟的主题分类在分类模型和分类算法等方面并没有本质的区别，两者的区别主要集中在分类体系的确定与特征选择方面，主题分类为体裁分类研究的展开提供了重要条件。整体来看，体裁分类研究尚处于全面探索阶段的初期，其技术还不够成熟。而且，国内汉语体裁自动分类的研究工作也刚刚起步。本文参照英语体裁分类以及主题分类机制，结合主题分类在特征选择方面的研究成果以及体裁分类在汉语修辞学方面的特殊性对体裁分类中的特征选择展开了较深入的研究实验，包括较全面的选取特征项，将主题分类中的传统降维公式：卡方统计量法、相关系数法以及权重公式：tf.idf应用到体裁分类中、根据体裁分类的特性对这些传统公式进行改进，在体裁分类中尝试使用潜在语义分析技术进行降维等。最后采用在主题分类中取得了较好分类效果的支持向量机技术进行体裁自动分类。分类实验在包含应用文、新闻、记叙文、说明文、议论文5类典型体裁类别，共1500篇文档的中文文本体裁语料库上实现。作为中文文本体裁自动分类研究方面的尝试，实验结果显示了中文文本体裁自动分类的可行性，并获得了较好的分类效果，但仍有很多更深入的研究工作有待展开。

其他文献

图像认证及版权保护多功能水印算法研究

在科学技术高速发展的今天,计算机和Internet已经成为了人们生活中必不可少的要素。越来越多的产品以数字化的形式展现在人们面前,但随之而来的是日益严峻的版权纠纷问题。采

学位

图像数字水印图像认证版权保护混沌加密

基于数据挖掘技术的羽毛球运动员训练模式优化的分析与研究

羽毛球运动是我国的重点夺金项目，在世界排名中居领先地位，占据着非常有力的位置。随着新规则的实施和竞争对手实力的增强，对我国羽毛球运动员提出了更高的要求，不仅要具备过硬的

学位

羽毛球运动员训练模式数据挖掘技术个体化指导

多核机群下基于小波原理的并行图像压缩与解压缩

图像压缩技术是多媒体技术研究的重点问题,其中嵌入式零树小波压缩算法又被认为是迄今为止最有效的压缩算法,但因为压缩过程是一个耗时的过程,所以为了更好地扩展嵌入式零树

学位

多核机群图像压缩小波嵌入式零树小波编码MPIMPI+OpenMP

量子电路综合与量子电路模拟器的研究

由于量子计算有可能从根本上超越经典计算机的计算能力以及在信息处理方面的巨大潜力，量子计算机吸引了越来越多的人对其进行研究。量子电路作为量子计算机的一个基本计算模型

学位

量子计算机量子电路量子逻辑电路模拟器综合算法

基于内容的哼唱式音乐检索研究

随着数字音乐技术的迅猛发展和手机等移动设备存储容量的增加，如何快速、有效地检索音乐信息成为迫切需要解决的问题。传统基于文本的检索方法，只能对有标注的数据信息进行检索

学位

音乐信息检索音高检测旋律特征提取哼唱式查询动态时间规整

基于优先级的需求管理的研究与应用

信息产业经过十几年的快速发展,软件系统的复杂度逐渐变高,系统集成的规模逐渐变大,造成了项目不成功的概率逐渐增高,怎么样将软件项目的失败率降低成了目前业界迫切需要攻破

学位

需求管理需求优先级层次分析

P2P网络中复杂查询处理的研究

随着Internet的发展,P2P网络作为一种新的网络应用模式,在工业界和学术界都受到了广泛的关注。当前,P2P网络中的搜索技术由于其灵活性和对动态环境的适应性,己经成为P2P网络

学位

P2P网络复杂查询范围查询连接查询负载平衡

基于人工神经网络的烧结终点预测模型研究

烧结为高炉炼铁提供原料,烧结矿产量的高低、质量的优劣都将直接影响到炼铁生产的产量、质量及能源消耗。烧结终点是烧结结束时的位置,作为判断烧结过程的重要参数之一。烧结

学位

烧结终点BP神经网络RBF神经网络预测模型

WSN中蜂窝拓扑结分簇路由的设计与仿真实现

由于无线传感器网络节点计算能力、通信能力和能量供应能力的局限性，大规模、高密度传感器网络对路由拓扑控制提出了很高的要求。良好的拓扑结构，能够提高路由协议和MAC协议的

学位

无线传感器网络蜂窝拓扑CACH算法簇头选举机制数据融合结构层次分簇

数据挖掘技术在信用卡数据仓库中的应用研究

随着货币的电子化发展，信用卡在银行业务中所占的比例越来越大。信用卡业务的开发、应用、服务、管理的水准直接关系到银行的经济收益。通过对信用卡业务数据的分析、挖掘，可以

学位

数据挖掘信用卡数据仓库PSO算法

中文文本体裁分类中特征选择的研究

其他学术论文