基于分布式表示的文本分类与自动摘要方法研究

来源 :山东工商学院 | 被引量 : 0次 | 上传用户:dy911615
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理首先要应对的是如何表示文本以供机器处理,将文本元素向量化是一个很好的方式。分布式表示模型(Distributed Representation Model)通过神经网络训练将文本元素映射成固定长度的向量,且向量间的距离能够刻画文本元素间语义的相关性,克服了one-hot向量维数太高且不能刻画文本元素间联系的缺陷。本文在文本分布式表示的基础上设计了新的文本分类算法与多文档自动摘要算法。针对文本图模型结构维数庞大与极其稀疏等问题,本文将词语的分布式表示与文本图模型表示方法结合,设计了文本的概念有向图模型。首先将文本中的词语映射为词向量,通过词向量聚类将语义相关性较高的词语聚为概念。然后按照词语的顺序关系构建概念有向图模型,将文本的概念有向图模型对应的邻接矩阵保存为灰度图像,将自然语言处理任务转变为图像处理任务,实现从文本到灰度图的映射。最后设计了一个三层卷积神经网络,对文本灰度图进行分类,将分类结果与其它文本分类算法作比较,结果表明本文提出的算法好于其它三种文本分类算法。针对国内多文档自动摘要研究中常出现缺乏摘要句消冗的问题,本文将句子的分布式表示与谱聚类算法结合,设计了基于谱聚类的多文档自动摘要算法。首先将文本中的句子映射为句向量,利用谱聚类算法对句向量聚类,将文档划分为各个子主题文档。然后在各个子主题文档中建立句关系图模型,利用TextRank算法迭代句子权重。最后抽取权重最大的句子作为摘要句,按摘要句在原文中的位置排序组成摘要。的内部评价方式常需要人工的参与而无法做到评价高效与客观等问题,本文提出了基于文本信息熵的摘要自动评价方法。通过摘要与原文档信息熵的比值来衡量摘要的质量,该评价方法并不需要人工来撰写参考摘要,利用此评价方法将本文提出的多文档自动摘要算法与其它自动摘要算法作比较,结果表明本文提出的多文档自动摘要算法效果要好于其它两种自动摘要算法。
其他文献
【正】 端木蕻良(1912——),原名曹京平,又名曹之林。自他的第一组短篇故事于1936年由上海几家著名杂志发表后,开始步入中国作家的行列。到1940年他28岁时,已完成《科尔沁旗
<正>家是最小国,国是千万家。家风的"家",是家庭的"家",也是国家的"家"。党的十八大以来,习近平总书记在不同场合多次谈到要"注重家庭、注重家教、注重家风"。在十八届中纪委
进入21世纪以来,全国各地许多党报的通联工作受多种因素影响逐渐式微,有的在机构设置上由原来的一个部门,缩编为一个功能科室;有的甚至从一个科室缩编为一个工作岗位。但是,
本文在对应急物流产生的背景、内涵与分类进行分析的基础上,提出了应建立高效应急物流系统的保障机制以及建立应急物流体系的基本思路。
新媒体时代,传播技术的进步使得传播方式和媒体格局发生了巨大变革,"多对多"的传播方式成为可能。但同时也滋生出很多弊端,如新闻从业者失律导致虚假新闻横行;网络舆论压力下
选用2个不同品质类型的小麦品种郑麦7698和徐麦33,采用水稻、玉米、花生3种作物秸秆配施腐熟剂还田种植模式,以小麦常规栽培方式为对照,研究其对小麦产量及物质生产的影响。
作为航天器的电能供给装置,太阳翼对于航天器飞行的成功起着重要作用。文章基于航天器太阳翼展开过程的分析,确定了以太阳翼铰链的总驱动力矩作为展开可靠性的特征量。基于"应
阐述了铜冷却壁的技术优势,并对采用铜冷却壁的经济效益进行了综合分析,认为采用铜冷却壁可使高炉炉体下部寿命与炉底炉缸寿命同步,在经济上也具有竞争力,采用铜冷却壁还必须
通过改进传统的社会力模型,建立了一种适用于密集场景中个体目标方向预测的目标预测模型.该模型详细定义了个体在人群中受到的驱动力、躲避力和排斥力,以及3种力的合力对个体
<正>最新民调发现,大家认为富人奢侈(57.1%)、贪婪(52.7%)和腐败(45.0%);同时92.9%的人又希望成为富人"我要替富人说话,为穷人办事。"去年7月25日,经济学家茅于轼在报纸上表