论文部分内容阅读
随着大数据时代的到来,新闻、微博、报纸等信息量呈现爆炸式的增长,极大地满足了人们的阅读需求。但同时各媒体信息难免会重复,且文本质量层次不齐,标题与内容偏差较大等现象层出不穷,这就对人们的阅读以及信息的获取带来了很大的挑战。最好的解决办法就是文本摘要,在庞大的文本数据面前,人工摘要就显得费时费力,经验要求高且效率较低。在这种情况下,文本自动摘要受到社会和研究人员的关注,该技术主要是通过计算机自动提取文本的主题信息,生成能够表示文本中心思想的短文作为文本摘要,很大程度上方便了文本压缩、传播以及文本阅读者的阅读效率。作为自然语言处理领域一个方向,重点和难点在于如何准确的编码文本,将自然语言处理成为机器可以“理解”的语言,也是知识表示的研究内容。知识表示领域的研究很多,绝大多数是基于词袋模型、n-gram模型,以及lda模型。最近的文本处理研究方向逐渐向着词向量段向量化方法转变,这种基于学习的方法相较于经典方法而言,在实际应用中效果颇佳。现有的词向量技术,段向量技术将文本表示为一个稠密的向量,已经被应用到文本分类和网页信息提取等工作当中。尽管取得了巨大的成功,研究者们也无法全面比较向量化方法相较语经典方法的优势有多大,也无法直观的理解参数的改变会对向量模型带来多大的影响。为了研究自动文本摘要相关技术的研究,本文设计实现了一套文本自动摘要系统。该系统主要分为四个模块:词向量生成模块、段向量生成模块、关键词提取模块、主题句抽取模块。第一部分在现有的word2vector技术的基础上,提出了词向量优化技术,实现了词向量的并行训练并完成对所有单词的编码;第二部分基于词向量来生成每个文本片段所对应的段向量;第三部分在前面的基础上对段向量进行处理得到文本片段当中的关键词;第四部分由关键词映射到原文本片段当中的句子,对得到的句子进行评价提取从而最终得到文档摘要。基于以上工作,实现了文本自动摘要系统,并进行实验证明该系统能够有效的提取摘要。