面向文本的主题挖掘技术与实现

来源 :济南大学 | 被引量 : 8次 | 上传用户:wap1012min2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,互联网技术得到了飞速的发展,数字化图书馆、数字化办公也变得越来越普及,于是网络上的信息在以几何级数般的速度在膨胀。面对网络上如此浩瀚的信息,和人们有限的精力,快速提取出自己需要的信息,成为了人们的迫切需求。目前存在的主题挖掘系统,能够提取出文档的主题,从一定程度上满足了人们的需求,但是它们大都存在着效率低,主题提取不准确的问题,为此,本课题认真分析了他们的不足之处,通过改进提出了一种面向文本的主题挖掘的新技术。   面向文本的主题挖掘技术,旨在利用日益成熟的文本挖掘技术,首先抽取某一领域的一篇文档,和其他领域的几百篇文档,进行特征表示和中文切词处理,然后统计词频,计算权重大小,得出这一领域的此篇文档中的词语,在代表该领域词语特征方面的重要程度。一般认为,一个词语在该领域内越重要,那么它在该领域的文档中的出现频率就越高,而在其它领域内的出现频率越低,甚至不出现。然后按重要程度的大小排序,并按比例提取词语放入该领域的词库中。同时,很多文本文档都带有标题、摘要、关键字等信息,而这些信息跟正文相比,对于文本主题的贡献程度是不同的,它们往往都是经过作者提炼加工得出的,因此,比正文信息更能代表文档的中心思想,所以还要对将这些信息经过切词处理后与正文信息进行词语相似度计算,将符合阈值要求的词语加入到该领域的词库中,然后还要将中文切词中切碎的词语,进行组合词拼接,以使专业词语保留在该领域的主题词库中,最后,按比例提取主题词,得到该领域的主题词库,同时,由于“爸爸”与“父亲”具有相同的含义,因此,还需要将得到的该领域的主题词库中的词语查找同义词表,并将这些词语的同义词一块加入到该领域的词库中。通过不断的训练,该领域的文档,逐步扩展该领域的词语数,并且通过设定的参数优化本领域中的词语,使其保留最具代表性的词语,提高主题发现的效率和准确性。   在得到的领域词库的辅助下,将需要进行主题挖掘的文档经过特征表示后,用该领域的主题词库进行切词处理,通过词频统计和权重计算后,得到按权重大小排序的词集,最终得到形如“体育→足球→任意球技术”的主题。   实验表明:在建立领域词库的过程中该方法的准确率在80%以上,并会随着背景文档数的增加,准确率成缓慢上升的趋势,因为随着词语数量的增加,专业词语在该领域中的出现频率不变而在其它领域中的出现频率会逐渐降低,这样经过权重计算,就会使主题提取的准确率提高。   在主题提取实验中,该方法在领域词库的帮助下,能够准确、高效的提取出该文档表达的主要思想,能够帮助人们从浩瀚的文本信息中,快速识别自己需要的东西,提高人们的工作效率。   综上所述,面向文本的主题挖掘技术,在借鉴传统方法的基础上,通过改进方法,提出了一种全新的挖掘主题的方式,提高了主题挖掘的效率和准确性,并且能够在使用过程中不断完善。
其他文献
IT领域服务行业的迅猛发展,使得服务业务和需求不断变化。服务提供者需要采用有效的资源管理策略来降低运营成本。虚拟化技术为实现这个策略提供了很好的解决方案。通过将物
三维场景建模一直以来都是计算机图形图像处理和计算机视觉中最活跃的研究领域之一。它在工业设计与制造、娱乐、教育、视听艺术及军事等方面都有广泛的应用。研究人员对三维
本文分别对近邻法、多视角学习以及组合学习进行了相关的理论和算法的研究,并对它们分别进行了改进。在实际应用中,近邻法是一种应用广泛而且简单有效的方法。但传统的近邻法
互联网、多媒体和通信技术的飞速发展,使得多媒体数字产品的传播和复制非常容易,因此多媒体数据的安全问题越来越受到人们的重视。数字水印技术可以有效地解决多媒体数据的安
P2P技术的广泛应用在大规模分布式计算领域,如:文件的共享(file-sharing)、数字内容的分发(digital content delivery)、P2P网格计算(P2P Gridcomputing)等。同传统的基于C/S
如今计算机系统已经在一些关键的行业(如民航订票系统、银行结算系统、证券交易系统等)得到广泛应用,这些计算机系统可靠稳定的运行起着非常关键的作用。在这些领域的高端容
机载激光雷达(Light Detection And Ranging, LiDAR)技术使获取海量地形数据变得越来越容易。随着应用的深入,经常需要对一个大面积区域构建数字地面模型(Digital Terrain mo
无线传感器网络(Wireless sensor networks, WSN)技术的飞速发展和日趋成熟,使得其能够提供的信息采集功能和查询处理能力不断强大,进而推动了无线传感器网络在诸多领域的广
VPN就是在公用网络上利用专门的加密技术构建一个虚拟的、专用的隧道,连接在Internet的两台机器通过隧道进行通信,VPN技术基于Internet,但又独立于Internet,因为隧道是私有的
针对传统的交通参数检测器存在的交通参数提取不足及安装、维护上的损耗问题,以车辆视频序列为研究对象,论文在已有的运动检测算法理论的基础上,改进了道路图像分割算法以及