论文部分内容阅读
在当今全球信息一体化的时代,网络资源的不断增长提供给人们的电子文本信息越来越多。人们能从这些文本信息中获取大量的知识或技能,但又面临着信息太多而时间不够的问题。虽然目前有很多搜索网站,人们可以通过搜索关键词的方式来查找相关信息,但搜索出来的信息量依然太多,往往只有人们阅读完文本后才发现不是所需要的信息。因此,如何能有效地对文本进行主题分析成为迫切需要解决的问题。本文针对文本主题分析技术中的主题分割和主题识别展开了研究,主要包括以下几部分工作:首先,分析了当前文本主题分析技术的研究现状、相关的概念与现有的技术,并分析了自然语言处理中常用的评价方法如何在文本主题分析中得到使用。其次,本文提出了基于SVO的段落相似度计算方法,并将该方法应用到文本主题分割中。接着,提出了基于关键句的文本主题识别方法。该方法是基于文本主题分割后的结果,对每个相对独立的主题文本块进行主题识别,找出适合做文本块主题的关键句,并将其进行处理使得关键句语义完整。将这种主题分割和主题识别的方法统称为基于统计的文本主题分析技术。实验结果表明该技术在文本主题分割中比传统的建立段落向量空间模型计算连续段落相似度的方法更有效,在主题识别上找出的关键句在一定程度上优于Microsoft Word寻找的关键句。另外,针对上面先进行主题分割后进行主题识别的方法导致主题漏识的情况,提出了统计与知识相结合的文本主题分析技术。该技术中使用了同义知识和主题知识,先进行主题识别再进行主题分割,将主题分割后的文本块进一步进行主题识别,将两次主题识别结果的并集作为整个文本的主题。该技术一定程度上提高了主题分割和主题识别的准确率。然后,使用VC++和Matlab混合编程实现了文本主题分析系统,将其用于文本主题分析。最后,本文对研究工作进行了总结,提出了今后进一步的研究方向。