【摘 要】
:
针对向量空间模型表示法的局限性,采用潜在语义索引在语义层面进行处理,是近几年提出的一种文本表示方法。潜在语义索引是利用统计计算导出文本中的潜在的语义进行索引,而不
论文部分内容阅读
针对向量空间模型表示法的局限性,采用潜在语义索引在语义层面进行处理,是近几年提出的一种文本表示方法。潜在语义索引是利用统计计算导出文本中的潜在的语义进行索引,而不是在传统的字词上进行索引。本文的研究工作是基于潜在语义索引的分类模型。针对向量空间表示模型的高维性、松散性、仅体现词汇层面的缺点,在K-近邻和支持向量机分类算法的基础上,应用了潜在语义索引对原始的词*文档矩阵进行了消减,得到信息更为丰富、准确、浓缩的语义空间,与向量空间模型的特征空间进行了详细全面的比较。实验结果表明在几乎相同的F1值下,基于潜在语义索引的分类模型仅仅使用50维就能达到向量空间模型1000维同样的效果,所用的特征向量仅仅为后者的1/20。本文还用实验数据详细说明了基于各种不同的特征词选择算法,即使特征词变化比较大,基于潜在语义索引的K-近邻和支持向量机分类模型在实验中有着较好的稳定性和有效性,保持一个稳定的F1值。本文还针对K-近邻分类算法的局限性,改进了传统的K-近邻算法,提出了一种基于中心距离的K-近邻改进算法。传统的K-近邻算法有诸多局限,比如在训练样本分布类内距离较小而类间距离较大的情况下才有较理想的分类效果,但是实际情况遇到训练样本很松散,当训练样本处于边界分布和分布不均时,K-近邻算法存在弊端。本文提出的基于中心距离的改进算法,综合考虑了训练样本的分布情况,避免了边界分布和不均分布对K-近邻造成的影响。实验结果表明,宏平均F1值从83.6%提高到88.5%,证明了改进的有效性。
其他文献
SoC验证是SoC研制成败的关键,对于设计如何有效地进行验证,一直处于研究之中。本论文以系统芯片SoC的研制为背景,研究SoC设计中的基于WinCE操作系统的软硬件协同验证,具体完成的
主观文字试题是当前中文在线考试系统进行考核的重要内容之一。如何利用计算机对主观文字试题(以下简称“主观题”)进行阅卷与评判一直是考试系统自动化要解决的关键问题,也是自
传统入侵检测系统在检测速率以及准确度方面已经不能满足现在网络安全的需要,入侵检测技术中的协议分析方法成为研究的重点之一。针对当前协议分析技术所存在的技术单一、无
VNC(Virtual Network Computing,虚拟网络计算)是AT&T剑桥实验室所研发的屏幕分享与远端操作工具,它支持多种操作系统,可以用于实现远程办公,远程技术支持等多种应用。随着互
随着商业化信息技术和网络技术的迅猛发展,基于B/S模式的企业级网络应用技术日益成熟并进入了人们生活的方方面面。企业和个人在互联网上借助各种网页的形式共享自己的信息并
电阻抗成像技术(Electrical Impedance Tomography,简称EIT)是西方发达国家从二十世纪七十年代末开展并迅速发展起来的一门新兴技术,目前主要有两大应用领域:工业过程电阻抗成像和
伴随着Internet的普及和发展,电子邮件以其方便快捷、低成本的优点得到迅速而广泛的应用,并成为人们交流沟通的主要工具之一。与此同时,垃圾邮件也越来越泛滥,最近,图片型垃
在信息化不断发展的今天,对等网络(P2P)作为一种优势显著的网络结构已经成为不可或缺的网络应用系统。P2P在文件共享、协同计算等领域都有着广泛的应用,并且具有较大的发展空
全极化合成孔径雷达具有全天时全天候观测特性,并且能够利用自身优势得到极为丰富的极化信息,是非常理想的海上溢油观测工具。在最近的几年当中,有很多先进的雷达设备产生,比