基于概念空间的文本分类的应用研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:coldblast
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着文本信息的快速增长,特别是Internet上在线信息的增加,文本(网页)分类显得越来越重要。由于文本分类有助于用户有选择地阅读和处理海量文本,可以在较大程度上解决目前网上信息杂乱的现象,方便用户准确地定位所需的信息和分流信息,因此,文本自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段.文本分类的方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的文本分类系统应用于某一具体领域,需要该领域的知识库作为支撑,由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用面较窄。而基于统计的分类方法由于采用纯粹的数学运算,不苛求复杂的语言学知识和领域知识,以及在实际应用中所体现出来的良好效果,成为目前流行的文本分类方法。现在广泛应用的基于统计的模型有向量空间模型、Naive Bayes模型、实例映射模型和支撑向量机模型。其中向量空间模型(Vector Space Model,VSM)是由G.Salton等人在20世纪60年代提出的,把文档简化为以项的权重为分量的向量表示,把分类过程简化为空间向量的运算,使得问题的复杂性大大减低。此外,向量空间模型对项的权重评价、相似度的计算都没有作出统一的规定,只是提供一个理论框架,可以使用<WP=4>不同的权重评价函数和相似度计算方法,使得此模型有广泛的适应性。但此模型一般采用索引词来表示文档,分类是通过文档之间的字、词匹配来实现,是浅层次的词匹配,而非深层次的语义匹配,是不准确的。显然,字、词的同义性和多义性将分别对文本分类的查全率和查准率产生不利影响。LSI(Latent Semantic Indexing,潜在语义索引)方法是1988年S.T.Dumains等人提出的一种新的信息检索代数模型,其基本思想是文本中的词与词之间存在某种联系,即存在某种潜在的语义结构,因此采用统计的方法来寻找该语义结构,并且用语义结构来表示词和文本,这样的结果可以达到消除词之间的相关性,化简文本向量的目的。LSI利用统计计算导出的概念索引进行信息检索,而不再是传统的索引字、词。LSI基于这样一种断言,即文档库中存在隐含的关于词使用的语义结构,这种语义由于部分地被文档中词的语义和形式上的多样性所掩盖而不明显。LSI通过对原文档库的词—文档矩阵的奇异值分解(Singular Value Decomposition)计算,并取前k个最大的奇异值及其对应的奇异矢量构成一个新矩阵来近似表示原文档库的词—文矩阵。由于新矩阵消减了词和文档之间语义关系的模糊度,从而更有利于信息检索。与传统信息检索模型相比,LSI的优势表现在:向量空间中每一维的含义发生了很大的变化,它反映的不再是词的简单出现频度和分布关系,而是强化的语义关系;用低维词、文档向量替代原有词、文档向量,可以有效地处理大规模文档库。本论文以LSI方法为基础,在文[1][2]的启发下,探讨了基于概念空间文本分类的计算方法。由于文本分类是计算机情报检索的一个分支,论文首先简要地介绍了情报检索与计算机情报检索的涵义及发展简史和发展趋势;计算机情报检索的基本理论、研究对象和方法,以及文本分类的关键技术;然后论述了隐含语义索引(LSI)方法的思想和理论基础,并用图例和一个小的实例对其进行形象化说明,阐述了LSI方法的优势。论文的主要工作是在向量空间模型和LSI的基础上构造文本分类的概念空间并提出在概念空间中词语相似度、文档相似度、待分类文档与类的相似度的计算方法,在大量训练集的基础上,进行概念获取,将文档转化为文档向量,同时构造类基准向量,最后在概念空间中将文档向量与类基准向量进行匹配,完成分类,同时还讨论了有待在概念空间中探讨的分类学习问题。实验证实了基于概念空间文本分类能够取得较好的效果。由于语言中词的同义性和多义性普遍存在,使得基于词匹配的文本分类方法先天不足,本论文提出的基于概念空间的文本分类方法以一个较小的而更健壮的统计导出的概念空间替代原来基于独立词索引的文档向量空间,表现出明显的性能优势,希望将来通过对基于概念空间的文本分类的计算方法的一些比较系统的研究,以期寻求一个既有严格的理论依据,而且在实践中也可行的文本分类方法。
其他文献
该文所提出的面向表现的Web工程是Web工程的一个新的研究方法,其目的是解决Web应用开发中数据表现与业务逻辑代码相互混合所带来的诸多问题,从而降低代码错误率、提高系统的
本文研究的主要内容是在现有的IP基础上实现多媒体通信功能,并在理论上给出了多媒体通信系统的设计方案。本文在骨干网络层给出了路由器配置方案;在接入网络层给出接入网络的设
本文重点阐述了大连服装机械加工厂的计算机辅助工艺设计(CAPP)系统的开发过程。本系统基于数据库和Intranet技术,实现机械产品与零部件加工工艺的计算机辅助设计、存储和各种
该论文介绍基于Internet的拨号用户管理认证计费系统.论文首先介绍了开发应用软件的基本技术和基本理论,然后对多进程的Radius Server的软件结构、多进程共享有限的数据库连
随着因特网的飞速发展,人们可以从网络上获取越来越多诸如文本、图片、视频等各种形式的信息,而其中半结构化或无结构化的文本信息占据了很大一部分。如何利用文本分类技术对这
该课题就是在遵循现有蓝牙技术规范的基础上,提出的一个蓝牙系统路由策略模型.在这个模型中一个蓝牙系统(由众多各类蓝牙设备组成的系统)是由一个现实的蓝牙系统和一个用于管理
论文包括以下内容:1.对中国电子新闻媒体的现状及其存在的问题进行了深入的调研,详细分析了人们日益增长的多元化、个性化的信息需求与传统新闻生产之间的矛盾,提出了采用大规
随着多媒体技术及通讯技术的发展,视频监控系统正开始逐步在电气化铁路变电所采用,而当今最新流行的Windows DNA技术也已经开始在各方面得到应用,将两者有机地结合起来,实现最新
群决策支持系统(GDSS)是一个基于计算机的交互式系统,利用通讯、计算机和决策技术支持群体成员对非结构化决策问题进行定义和求解。通过消除彼此的通讯障碍,提供结构化的决策分
该文介绍的"高炉炉况评价系统"及其"参数学习子系统"是以鞍山钢铁公司10号高炉为背景设计的.其中参数学习子系统以基本黑板结构为问题求解模式,采用抽取的参数学习的启发性知