基于LSI和Ontollogy的语义文本聚类研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:xianglongke2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本是存储和交换信息的最自然的方式。相关研究表明,现实中80%的信息包含在文本文档中。随着计算机技术的不断进步,数字化文本数据不断增长。如何对海量的数字文本资源进行有效的组织和利用已变成了一个紧迫的问题。在此背景下,利用聚类分析技术对文本进行重新组织,加速信息检索和浏览的速度,实现信息的个性化服务极具研究前景。   文本聚类指将文本集中的文本分为更小的簇,要求同一簇内的文本之间的相似性尽可能大,而簇与簇之间的相似性尽可能小,其主要目的是以无监督指导的方式根据文本的内在关系将内容近似的文本分成不同的类。文本聚类的处理流程包括预处理、特征提取、相似度计算、特征聚类、聚类结果评价几个步骤。文本聚类作为一种对大规模文本信息进行有效组织的关键技术,正日益受到广泛的关注。   面对激增的数字文本资源,传统文本聚类技术越发不能满足信息处理的要求。主要原因在于:使用“词袋”模型来描述文本、没有从语义角度来考虑文本中相关联的关键词、不能对聚类结果进行合理描述,以及向量空间模型,即目前大部分文本聚类算法所采用的文本表示方法,自身的缺陷。对此,在前人研究基础上,本文提出了一个基于语义的文本聚类概念模型--SBTC模型。   SBTC模型中的语义源于LSI模型以及对文本特征进行基于本体的语义相似度计算,其处理流程为:(1)在对文本进行预处理和向量空间模型存储基础上,利用LSI技术,并借助于本体,对原始特征项进行降维和概念化处理,获取文本概念词集合;(2)对文本概念词进行语义相似度计算;(3)对文本概念词进行聚类,从而实现文本的聚类;(4)带有概念词的聚类结果输出。   本文第一章交待了本文的研究动机;第二章对文本聚类进行了综述,包括文本聚类的定义和基本步骤、常用的文本聚类方法以及文本聚类在信息检索中的应用;第三章综述了基于本体的语义相似度计算算法;第四章阐述了本文所提出的SBTC概念模型,是本文的重心所在;第五章对本文重点进行了总结,并指出笔者今后将要进一步关注或从事的研究内容。
其他文献
小学阶段兴趣是学生学习动力的根源,也是影响学生学习效果的重要因素.而从教学实际来说,英语是大部分小学生学习中不感兴趣的科目之一,所以本文中我就从兴趣激发方面去探究如
21世纪全球已进入信息化、网络化和数字化的知识经济时代。在知识经济背景下提出了一种全新的观念——知识服务,按照一般的理解,知识源于信息,知识是信息升华的结果。所以说,
高校图书馆核心竞争力可以分解为文献信息资源、人力资源、技术与设备以及组织管理四个构成因素,而高校图书馆业务外包的目的和精髓就是将非核心业务外包,使图书馆的工作重心
期刊
随着互联网的快速发展,如何从纷繁复杂的网络上快速准确的查找到用户所需要的信息成为学术界的研究热点,这个问题实质上是信息检索一直试图解决的问题。传统的信息检索技术在实
竞争情报传播是竞争情报业务规划流程中的最后一步,也是直接面对情报用户、将情报产品送达至用户手中的一步;传播效果的好坏不仅关系到情报内容的准确送达,也关系到用户对于情
21世纪是人类社会完成由工业文明向信息文明飞跃的伟大时代。在社会信息化进程日益深化、知识经济日趋形成的今天,档案信息化建设正以积极的姿态向前推进。在此背景下,档案事
近年来,我国的信息服务业获得了快速发展。而现代信息服务业以先进的数字技术和网络技术为支撑,与最具活力的产业形态相结合,不仅是信息服务产业中最为活跃的因子,也是未来信息产
学位
不论从竞争情报的起源,理论基础还是其工作内容来看,竞争情报一直是围绕着监测竞争环境从而为企业提供竞争信息和策略来进行的。特别的,竞争情报的一个重要方面就是观察竞争
随着资本主义的发展和资产阶级队伍的壮大,特别是清末新式教育和留学生教育的兴起,在二十世纪初的中国出现了一批不同于旧式封建文人的新的知识分子群落,即具有民族主义和民