论文部分内容阅读
随着信息时代的到来,互联网技术得到了飞速的发展,数字化图书馆、数字化办公也变得越来越普及,于是网络上的信息在以几何级数般的速度在膨胀。面对网络上如此浩瀚的信息,和人们有限的精力,快速提取出自己需要的信息,成为了人们的迫切需求。目前存在的主题挖掘系统,能够提取出文档的主题,从一定程度上满足了人们的需求,但是它们大都存在着效率低,主题提取不准确的问题,为此,本课题认真分析了他们的不足之处,通过改进提出了一种面向文本的主题挖掘的新技术。
面向文本的主题挖掘技术,旨在利用日益成熟的文本挖掘技术,首先抽取某一领域的一篇文档,和其他领域的几百篇文档,进行特征表示和中文切词处理,然后统计词频,计算权重大小,得出这一领域的此篇文档中的词语,在代表该领域词语特征方面的重要程度。一般认为,一个词语在该领域内越重要,那么它在该领域的文档中的出现频率就越高,而在其它领域内的出现频率越低,甚至不出现。然后按重要程度的大小排序,并按比例提取词语放入该领域的词库中。同时,很多文本文档都带有标题、摘要、关键字等信息,而这些信息跟正文相比,对于文本主题的贡献程度是不同的,它们往往都是经过作者提炼加工得出的,因此,比正文信息更能代表文档的中心思想,所以还要对将这些信息经过切词处理后与正文信息进行词语相似度计算,将符合阈值要求的词语加入到该领域的词库中,然后还要将中文切词中切碎的词语,进行组合词拼接,以使专业词语保留在该领域的主题词库中,最后,按比例提取主题词,得到该领域的主题词库,同时,由于“爸爸”与“父亲”具有相同的含义,因此,还需要将得到的该领域的主题词库中的词语查找同义词表,并将这些词语的同义词一块加入到该领域的词库中。通过不断的训练,该领域的文档,逐步扩展该领域的词语数,并且通过设定的参数优化本领域中的词语,使其保留最具代表性的词语,提高主题发现的效率和准确性。
在得到的领域词库的辅助下,将需要进行主题挖掘的文档经过特征表示后,用该领域的主题词库进行切词处理,通过词频统计和权重计算后,得到按权重大小排序的词集,最终得到形如“体育→足球→任意球技术”的主题。
实验表明:在建立领域词库的过程中该方法的准确率在80%以上,并会随着背景文档数的增加,准确率成缓慢上升的趋势,因为随着词语数量的增加,专业词语在该领域中的出现频率不变而在其它领域中的出现频率会逐渐降低,这样经过权重计算,就会使主题提取的准确率提高。
在主题提取实验中,该方法在领域词库的帮助下,能够准确、高效的提取出该文档表达的主要思想,能够帮助人们从浩瀚的文本信息中,快速识别自己需要的东西,提高人们的工作效率。
综上所述,面向文本的主题挖掘技术,在借鉴传统方法的基础上,通过改进方法,提出了一种全新的挖掘主题的方式,提高了主题挖掘的效率和准确性,并且能够在使用过程中不断完善。