web文本分类中特征向量优化技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:vvf022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用启所需要的信息是当前信息科学技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象,方便用户准确地定位所需的信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类有着广泛的应用前景。要进行web文本分类,首先要做的就是对web文本数据进行数学描述,其中最常用的模型就是向量空间模型和潜在语义索引模型等。在向量空间模型中,每一个不同的单词都作为特征空间中的一维,每一个文本就是特征空间中的一个向量。潜在语义索引模型在最初对文本的描述上也与之类似。但是,这种描述方法引发了一个非常严重的问题,那就是高维稀疏,加之文本数据所特有的近义词、多义词等等问题,使得文本分类具有相当高的时间复杂度,而且这些问题也极大地干扰了分类算法的准确性,使得文本分类的性能急剧下降。因此,迫切需要通过其它技术优化文本向量表示以帮助提高文本分类的性能。文本向量的优化技术总的来说分为两类,首先是权重调整方法。权重调整方法是通过综合考虑一个单词相对于一个文本、一个数据集或者一个类的重要性来调整其在不同文本中的权重,使其值尽可能正确地反映一个单词与一个文本在语义上的关系。另一类优化技术是降维,它指的是通过降低特征空间的维度优化文本的表示。主要包括特征选择和特征抽取两种技术。本文从向量优化技术入手,将研究点分为了两大块:特征选择及其权重计算方案,特征抽取及其权重计算方案,所做的主要工作如下:在特征选择的研究上,针对目前很少有关于冗余特征研究的现状,分析和论证了在特征选择过程中消除冗余特征的重要性,提出了在特征选择过程中消除冗余特征的途径—特征之间的关联性分析。该方法以信息论量度为基本工具,综合考虑了计算代价以及特征评估的客观性等问题,形成了一种基于关联分析的特征选择算法,算法在保留类别相关特征的同时识别并摒弃了冗余特征,取得了较好的约简效果;在针对特征选择的权重计算方面,首先对传统的权重计算方案进行了分析,在指出其不足的基础上提出了改进方案:(1)对特征的类别区分能力予以了着重加强,在传统的权重公式中扩展了一项单词的类区分能力:wid=local(t,d)*global(t)*classDisc(t)(2)对web文档信息特征进行分析,并且提出了web文档中主特征词、主特征域和主特征空间的概念。分析论证了在主特征空间上应当使用文档频度DF(document frequency)信息而非传统意义上的IDF(inverse document frequency)信息进行权值计算,以更加精确地描述web文本。在特征抽取的研究上,提出了针对局部LSI的权重计算方案。本文研究了典型的潜在语义索引技术(LSI)在文本分类上的两种应用方式:全局LSI和局部LSI。全局LSI完全无视训练数据中已知的类信息,所以全局LSI不但不会提高反而还会降低文本分类的性能。相比于全局LSI,局部LSI不是在整个训练数据上执行LSI,而是在每一个类的局部区域上分别执行奇异值分解从而为每一个类都创建了一个局部语义空间,然后每一个新的文本都分别被映射到每一个局部语义空间中进行分类。局部LSI通过利用已知的类信息很好地抽取出了区分一个类和其他类的语义结构,所以较之全局LSI有了一定的进步;但是通过对局部LSI的权重计算方案的分析我们发现,其权重计算方法只是简单继承向量空间模型,虽然潜在语义索引与向量空间模型在描述文本上有一定的相似性,但其基本思想有本质的不同:VSM本质上将词语看作空间的维度,将文档根据其所包含的词语看作是该空间中的一个点;LSI中不再将词语看作是单独的维度,潜在语义空间中的维度被认为是对应着各个“潜概念”,词语向量被看作是它们在各个“潜概念”上的投影,文档向量是其所包含的词语向量之和。为此本文提出了一种新的基于加权平滑的局部LSI方法,这个方法通过在语义信息表达更清晰的局部区域上执行奇异值分解从而抽取出了更具类区分力的局部语义结构。分类技术作为数据挖掘技术的基础,是信息过滤的基础技术及核心技术。最后本文将所提出的特征向量优化策略在信息过滤技术平台进行了应用层面的测试,取得了令人满意的测试效果。
其他文献
集成电路(IC)生产过程中,电子部件需要进行高温烘烤一定时间后冷却再进行测试。目前市场上小型烘干机使用很不方便,不具备恒温计时及快速冷却等功能,也无法实现后台监测管理,
在过去的十年中,科学计算正从主机集中方式转移到并行和分布方式;近年来这一趋势更向着网格计算延伸。网格是当前并行与分布式计算技术的一个重要发展方向,其目标是实现对地
事务处理是J2EE体系的一个核心技术,在企业应用中使用事务处理是非常有益的,它已成为当前计算机科学技术领域引人注目的重大研究课题。本文提供一篇关于基于J2EE技术的WEB事务
嵌入式系统是嵌入式到其他产品内部的计算机。嵌入式系统广泛应用于各种复杂工程技术中,包括网络通讯系统、制造系统、医疗设备、电力电网、汽车制造、航天飞机和运输系统等
信息时代的到来,各种信息、知识的获取以及娱乐节目的收看等媒体信息服务被越来越多的人们所希望,各式各样的媒体终端方案应运而生。利用现有的网络和流媒体等技术提供一种直接
基于网格技术整合和管理网络中分布的各种资源,实现资源共享与协同工作已经成为科研界的一个研究热点。校园计算网格是网格技术的一个重要应用方面。本文从分析校园计算网格的
软件开发技术日新月异,但软件的质量和可靠性常常是软件工程中的薄弱环节。电信网管系统是为电信运营商更好的对电信网及各种设备进行管理而出现的,系统的软件质量直接影响了
作为互联网的重要应用,网页浏览一直受到广大网民的青睐。但是互联网在给大家带来便利的同时,无用信息和不良网页问题也日益严峻。这类网页不仅耗费网络带宽和计算机时空开销,而
资源描述框架(Resource Description Framework,RDF)是语义网框架中的核心概念,用于描述Web资源,将各种不同领域的元数据整合起来,保证元数据交换时不丧失语义信息,实现网络资源的自
在信息时代的今天,图像信源由于具有非常丰富的信息量而成为传递信息的重要媒介。在保证图像质量的前提下,如何节省存储空间、减少对传输信道的占用,已成为目前的研究热点。论文