基于支持向量机的中文文本自动分类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:cygggg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要是应用支持向量机的分类方法对中文文本进行自动分类。首先介绍了中文文本自动分类的框架体系,基于词典的中文自动分词技术,然后介绍五种特征选择方法,向量空间模型和支持向量机。最后用上面的技术实现了基于支持向量机的中文文本自动分类模型。 该模型通过对训练集中的文本进行分词,获得文本的原始特征集,然后通过统计方法获得文本在VSM空间中的TF-IDF函数表示,对文本向量进行加权。训练文本集按照上面方法进行向量表示后,作为支持向量机的学习向量进行训练,从而获得文本分类的支持向量。对于将要进行分类的文本,也按照上面的方法进行向量化,然后通过支持向量机判别该文本的类别。通过实验深入比较了五种文本特征选择算法:信息增益,互信息,x2估计,交叉熵,文本证据权,以及三种核函数,分析总结了它们的效果和特点。
其他文献
本文提出了一种新的基于内容检索图像的方法——基于块划分颜色特征的图像检索方法。该方法利用栅格划分技术提取图像颜色特征,通过对图像的分块编码,将图像转换成类似文本的形
传统的空时自适应处理(Space Time Adaptive Processing,STAP)一般认为杂波环境是均匀的,在此基础上,有足够的独立同分布样本来估计协方差矩阵,使得STAP表现出良好的性能。而
本文总结了CISCO基于第三层IP交换的快速转发技术。在此基础上,研究在嵌入式系统VxWorks上,实现宽带接入设备的快速转发技术。讨论了报文转发的详细流程、系统路由表组织结构及
  电视会议是利用现有的通信网络实时的传输电视信号,召开会议的一种多媒体通信方式。随着视频压缩编码技术的发展和计算机网络技术的发展,越来越多的电视会议系统通过局域网
随着对信息安全的重视度越来越高,人脸识别的应用范围越来越广。基于画像的识别是人脸识别的一个重要分支,而基于画像的人脸识别很大程度上依赖于人脸画像-照片变换技术。人
海杂波背景下的目标检测是雷达目标检测领域的一个重要课题。由于海杂波的复杂特性,海杂波背景下的目标检测也是雷达目标检测领域的一大难题。国内外许多专家和学者一直致力
随着数字多媒体信息的广泛应用,尤其是因特网的日益普及,数字作品的版权保护问题日益突出。数字水印技术通过在数字作品嵌入水印信息提供了有效的版权保护,已成为科学研究的
本文是科研项目“渔探仪”的一部分,主要工作是在已有的设备和硬件基础上,完成信号的采集、信号的抗噪声处理、目标的方位估计和分类识别系统的初步研究和开发。 本文的研究工作是将接收机接收到的信号采集进入计算机,利用已有的理论对信号进行处理,大致估计出目标的性质和方位,并利用神经网络理论对目标进行初步的分类识别研究。可以将本文的工作大致分为五个部分:数据采集、信号探测、分类识别、终端显示、实验分析。
自动跟踪接收机作为遥感卫星地球站的一个重要组成部分,接收来自天线的卫星数据,经变频、滤波、放大、检波、解调后为伺服系统提供所需要的俯仰误差角和方位误差角度信息,由
学位