汉语文本主题分析技术的研究与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zjhzjhzjh111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今全球信息一体化的时代,网络资源的不断增长提供给人们的电子文本信息越来越多。人们能从这些文本信息中获取大量的知识或技能,但又面临着信息太多而时间不够的问题。虽然目前有很多搜索网站,人们可以通过搜索关键词的方式来查找相关信息,但搜索出来的信息量依然太多,往往只有人们阅读完文本后才发现不是所需要的信息。因此,如何能有效地对文本进行主题分析成为迫切需要解决的问题。本文针对文本主题分析技术中的主题分割和主题识别展开了研究,主要包括以下几部分工作:首先,分析了当前文本主题分析技术的研究现状、相关的概念与现有的技术,并分析了自然语言处理中常用的评价方法如何在文本主题分析中得到使用。其次,本文提出了基于SVO的段落相似度计算方法,并将该方法应用到文本主题分割中。接着,提出了基于关键句的文本主题识别方法。该方法是基于文本主题分割后的结果,对每个相对独立的主题文本块进行主题识别,找出适合做文本块主题的关键句,并将其进行处理使得关键句语义完整。将这种主题分割和主题识别的方法统称为基于统计的文本主题分析技术。实验结果表明该技术在文本主题分割中比传统的建立段落向量空间模型计算连续段落相似度的方法更有效,在主题识别上找出的关键句在一定程度上优于Microsoft Word寻找的关键句。另外,针对上面先进行主题分割后进行主题识别的方法导致主题漏识的情况,提出了统计与知识相结合的文本主题分析技术。该技术中使用了同义知识和主题知识,先进行主题识别再进行主题分割,将主题分割后的文本块进一步进行主题识别,将两次主题识别结果的并集作为整个文本的主题。该技术一定程度上提高了主题分割和主题识别的准确率。然后,使用VC++和Matlab混合编程实现了文本主题分析系统,将其用于文本主题分析。最后,本文对研究工作进行了总结,提出了今后进一步的研究方向。
其他文献
遗传算法是一种进化计算技术,也是一种基于叠代的工具。系统初始化为一组随机解,通过叠代搜寻最优值。目前已广泛应用于函数优化、神经网络训练、模糊系统控制以及其他应用领
高尿酸血症(HUA)是指正常嘌呤饮食状态下,非同日2次空腹血尿酸水平:男大于420μmol/L,女大于360μmol/L[1]。随着人们饮食的结构变化,HUA发病率不断升高[2]。Qiu等[3]研究表
考虑到传统的数控零件编程方法,在数控零件编程时没有结合数控零件加工工序,因此编程加权相似度低,无法实现高精度数控零件编程。为此,进行宏程序的一种圆台曲面编程在数控零
初中生物的教学是学生认识地球的有效途径之一,生物核心素养旨在实现实践与知识的相互结合和转化,包括学生对生物观念的科学认识.其核心素养的运用可以使学生更加深入地掌握
临床医学正从直观的、经验的“描述型”演变为深入的、量化的“解释型”。客观地评价手术患者死亡和并发症出现的危险性是临床研究的一项新的课题。主要是根据手术患者的一些