基于词、段向量化表示的文本主题抽取技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:menglimengwaiszy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,新闻、微博、报纸等信息量呈现爆炸式的增长,极大地满足了人们的阅读需求。但同时各媒体信息难免会重复,且文本质量层次不齐,标题与内容偏差较大等现象层出不穷,这就对人们的阅读以及信息的获取带来了很大的挑战。最好的解决办法就是文本摘要,在庞大的文本数据面前,人工摘要就显得费时费力,经验要求高且效率较低。在这种情况下,文本自动摘要受到社会和研究人员的关注,该技术主要是通过计算机自动提取文本的主题信息,生成能够表示文本中心思想的短文作为文本摘要,很大程度上方便了文本压缩、传播以及文本阅读者的阅读效率。作为自然语言处理领域一个方向,重点和难点在于如何准确的编码文本,将自然语言处理成为机器可以“理解”的语言,也是知识表示的研究内容。知识表示领域的研究很多,绝大多数是基于词袋模型、n-gram模型,以及lda模型。最近的文本处理研究方向逐渐向着词向量段向量化方法转变,这种基于学习的方法相较于经典方法而言,在实际应用中效果颇佳。现有的词向量技术,段向量技术将文本表示为一个稠密的向量,已经被应用到文本分类和网页信息提取等工作当中。尽管取得了巨大的成功,研究者们也无法全面比较向量化方法相较语经典方法的优势有多大,也无法直观的理解参数的改变会对向量模型带来多大的影响。为了研究自动文本摘要相关技术的研究,本文设计实现了一套文本自动摘要系统。该系统主要分为四个模块:词向量生成模块、段向量生成模块、关键词提取模块、主题句抽取模块。第一部分在现有的word2vector技术的基础上,提出了词向量优化技术,实现了词向量的并行训练并完成对所有单词的编码;第二部分基于词向量来生成每个文本片段所对应的段向量;第三部分在前面的基础上对段向量进行处理得到文本片段当中的关键词;第四部分由关键词映射到原文本片段当中的句子,对得到的句子进行评价提取从而最终得到文档摘要。基于以上工作,实现了文本自动摘要系统,并进行实验证明该系统能够有效的提取摘要。
其他文献
图像显著性检测是计算机视觉领域中的关键技术之一,在实际的计算机视觉任务中也起着重要作用,其主要目标是模拟人类视觉注意系统来寻找到人们所感兴趣的区域。因此显著性检测
步态特征是一种生物特征,它具有其他生物特征不具备的优势,如可远距离获取、不易伪装和非接触即可获得等。在监控场景下,由于摄像头与行人的距离较远,不仅常用的指纹和虹膜特
自主驾驶技术是世界各国共同关注和积极推动的面向未来的交通新技术。目前,自主驾驶的主要研究方式是通过实车测试或仿真测试收集不同道路场景数据来训练和优化车辆模型,解决
在故障诊断研究中,对残差信息采用不同的度量将对模型和数据驱动方法产生至关重要的影响。通常采用欧式距离作为经典的残差度量方式,尽管能够反映系统偏离正常行为的程度,但
在雾霾恶劣的天气条件下,悬浮在大气中的微小颗粒对光线的散射和吸收作用,导致采集到的图像对比度、能见度和饱和度降低,色调偏移,颜色失真,这严重影响了户外视觉系统的效用
多目标跟踪(Multi-object tracking,MOT)是视觉监控领域的前沿课题,其重要的军事和民用价值引起了广泛的关注。本论文在公开监控序列集和检测响应集的基础上,以图像序列中行
在人机交互、自动驾驶等领域,人眼视线估计发挥着巨大的作用。目前人眼视线估计方法的效果深受其训练数据的质量所影响,视线估计的训练数据主要包含两个类型:人眼真实图像和
进入21世纪以来,计算机的快速发展以及大数据的普遍应用,使得通过人机交互工作的方式成为人们工作生活重要的组成部分。其中,手势识别是人机交互方式中比较简单和自然的识别
调制样式识别是非协作通信过程中重要环节,是完成解调进而获取信息的前提,常用于电子侦察、电子干扰和频谱监管等,有着重要的军用和民用价值。近年来,机器学习发展迅速,受到
运动捕捉是一种对人体运动时空结构进行数字化表征的方法。近年来,随着动作捕捉数据技术的广泛应用,动作捕捉数据库的数据容量越来越大。随着动作捕捉数据量的增加,为了提高