文本连续空间表示技术研究及应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:huang_hh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示在文本分类、信息检索等自然语言处理应用中具有基础性的重要作用,尤其在当前网络文本规模指数增长的时代,获得有效的低维度文本表示成为许多应用技术可实用的关键。因此,文本表示技术得到了广泛的研究。近年来,随着深度神经网络技术的发展,出现了在连续空间上的词汇表示,这种表示具有压缩程度高、维度低等优势,因而也引发了研究人员将其推广到句子、文本等更大语言单元的尝试。不过,目前的相关研究还处于起步阶段,针对此问题的研究尤其是国内对此问题的研究还很少,本文在综述相关研究的基础上,主要开展了如下工作。首先,实现了两种具有互补性的基于神经网络的文本连续空间表示方法,其一是基于上下文预测当前词的表示学习方法,其二是基于当前词预测上下文的方法,分析了各自的优势。并在情感极性分析和相似文本检索两个任务上进行了初步的实验应用,在情感极性分析任务中取得了较好的效果,在相似文本检索任务中的结果还有待提高。其次,提出将文本连续空间表示用于文本分类任务中,并在多个文本分类数据集上进行了实验分析,验证了其有效性。分析了文本连续空间表示学习时的向量维度、上下文窗口、学习速率、词向量是否进行预训练等多种因素对分类性能的影响。结果表明,文本连续空间表示在低维度下能取得较传统文本表示方法更好的性能。最后,基于上述分析中所获得的文本分类算法和参数实现了一个文本分类演示系统。系统可以积累用户数据,并随数据的增加提升分类的性能。
其他文献
目的:巨噬细胞激活是免疫应答中很是重要的一环,巨噬细胞通过接收其所处微环境中的刺激往M1型巨噬细胞或M2型巨噬细胞极化,从而精细地调节炎症应答。而HIV感染巨噬细胞后对巨
随着环境污染的加剧,环境雌激素类物质由于具有生态毒性、生物累积性和难降解性,其安全性问题已成为最敏感的全球性焦点问题之一。壬基酚(NP)是典型的烷基酚类环境雌激素,具
大规模多输入多输出(Massive Multiple-Input Multiple-Output,Massive MIMO)技术因具有小型化的天线设备、较高的天线增益等优势可以有效地满足未来通信系统中高传输速率要
琵琶岗是一座充满浓厚传统文化底蕴的古村落。金秋十月,丹桂飘香的好日子,兴之所至,故地重游。走进村里,村中满身披绿的小树频频向我招手,开得正艳的各色花儿脉脉含笑,日夜与
贵金属纳米团簇是指在一定分子层保护下,由几个到几百个原子(Pt,Au,Ag,Cu等)结合而成的相对稳定的聚集体。其粒径小于2 nm的超小尺寸特质使其具有离散的电子状态和独特的几何结
点击化学反应是一类通过拼接小单元结构分子,进而快速、可靠地合成各种各样大分子的反应。点击化学反应因具有原料易得、操作简单、反应条件温和、抗干扰性强、产率高等优点,
赤霉素(Gibberellic acid,GA)是一类非常重要的植物激素,其在调节植物生长和发育方面发挥着关键性的作用。目前已知的GA信号调节因子主要分为两类:一类是GRAS蛋白家族,另一类
随着人们物质生活水平的提高,随时随地的高质量通信成为人们日常生活中的必需品,高速、稳定、安全的无线通信需求迫在眉睫,这对当前无线通信技术来说既是巨大的挑战也是难得
多地震属性综合分析技术在地质勘探中有着重要的作用。通常多地震属性综合分析计算具有计算复杂度高、计算量大的特点。使用单机进行计算,计算速度受到限制,需要消耗大量的计
卷积神经网络(Convolutional Neural Networks,CNNs)在目标检测领域表现卓越。然而由于其参数规模过大,深度卷积神经网络中往往存在大量冗余。本文选取了现今最优的实时检测网