【摘 要】
:
在科技飞速发展的时代,科技文献数量增长的速度越来越快,但是科技文献一般篇幅较长,无法快速掌握核心内容,因此,急需一种科技文献关键短语提取方法。关键短语提取是指从一段文字中标注出能够概括该段文本核心意思的短语或词语。现有的大多数科技文献关键短语提取方法都基于词频信息,并没有包含足够的语义信息;很多方法属于单词级别,没有利用单词之间产生的短语信息,在提取多个单词的较长关键短语上效果不佳。针对上述问题,
【基金项目】
:
国家自然科学基金“面向多源高维数据流的在线特征选择与分类方法研究”(61673152); 国家自然科学基金“面向短文本数据流的多标记分类方法研究”(61976077);
论文部分内容阅读
在科技飞速发展的时代,科技文献数量增长的速度越来越快,但是科技文献一般篇幅较长,无法快速掌握核心内容,因此,急需一种科技文献关键短语提取方法。关键短语提取是指从一段文字中标注出能够概括该段文本核心意思的短语或词语。现有的大多数科技文献关键短语提取方法都基于词频信息,并没有包含足够的语义信息;很多方法属于单词级别,没有利用单词之间产生的短语信息,在提取多个单词的较长关键短语上效果不佳。针对上述问题,本文分别针对专利文本和科学论文两种科技文献,基于不同的特征表示方法开展对科技文献关键短语提取方法的研究,主要工作内容如下:(1)已有的科技文献关键词提取方法大多基于词频信息,没有包含足够的语义信息,为此,提出一种基于聚类的无监督专利关键词提取方法。首先,使用中文专利语料库来训练词向量,然后将每个专利表示成一个专利向量。随后将所有专利向量聚类以获得多个聚类簇心。最后将专利摘要中每个单词的词向量与簇心之间的余弦相似度视为该词的重要程度。多个中文专利数据集上的实验结果证明了该方法的有效性。(2)近年来,基于单词级别的关键短语提取方法取得了较好的效果,然而这些方法没有充分利用单词上下文生成的短语信息,导致对长短不一的关键短语提取效果不佳,为此,提出一种基于多尺寸卷积窗口的科学论文关键短语提取方法。该方法首先使用预训练的Skip-gram模型来获取单词嵌入表示空间。然后,引入具有多尺寸过滤器的卷积神经网络,将文本映射到分布式特征向量中,其中每个特征向量代表不同长度的短语信息。接下来,使用深度循环神经网络标记每个单词所扮演的角色。最后,利用注意力机制进一步判断每个短语的重要性。多个公开数据集上的实验结果证明了该方法的竞争力。
其他文献
随着科技的发展和公共安防需求的增加,智能监控系统的部署成为了一种流行趋势,其核心是行人再识别技术。本文首先简要介绍了行人再识别研究的意义、现状、挑战;接着深入研究行人再识别的理论知识,概述了行人再识别发展至今的经典算法;然后针对行人图片错位、遮挡、无关信息干扰等问题,对融合全局特征与局部特征的行人再识别算法进行研究,以上述两种类型特征的有效提取方法为切入点,做了以下研究工作和算法创新。第一个工作是
光场相机通过对单个场景进行多视角密集采样,使得高精度深度信息的挖掘成为可能,在深度传感器中不论在便携性还是深度精确性方面都具有显著优势。现有的深度估计方法不能很好处理遮挡和噪声问题,特别是对于包含遮挡区域的噪声场景,遮挡和噪声的同时存在将使深度获取难度进一步加大。本文分别围绕遮挡和噪声这两大难点问题对光场深度估计展开研究。论文的主要研究工作如下:(1)概述光场深度估计原理以及国内外的应用场景和研究
水下图像是获得水下场景信息的重要媒介之一,在水下探测、海洋研究等领域都扮演着重要角色。然而,光在水下传播时会与水体产生强烈的吸收与散射作用,导致水下成像质量下降,严重限制了水下的可视范围。因此,水下成像及复原技术在水下救援、海洋探索以及海洋目标识别等领域都有着重大意义和实际价值。本文首先针对水下图像中散射光去除的问题,采用分层思想分离图像中的散射光,实现了水下图像复原,提高了水下图像的质量;其次针
大数据时代,人们日常生活中处处都在积累着数据,从而导致大量的数据在不停的堆积,这些数据的内在价值是让很多学者们去研究聚类算法的动力。聚类算法的出现,使得巨大的数据得以发挥背后隐藏的价值。聚类有效性指标是对聚类结果进行评价,对于发现正确聚类数起到关键性的作用,然后现有指标存在簇中心分布很接近时难以得到正确聚类数、分离性处理机制过于简单、面向含噪声的数据集效果较差的问题。为此,本研究面向模糊聚类提出了
随着智能化信息时代的到来,校园学生对于获取信息的高效性也越来越重视。目前高校学生获取各类信息需要在不同的App和平台上进行,这对高校学生获取信息造成一定的局限性。在信息爆炸的时代,快速找到自己有用的信息对提高生活品质也显得必不可少。为此,需要搭建基于个性化推荐的、集失物招领、交友、经验交流、买卖交易为一体的校园学生互动管理平台。本平台采用个性化的推荐算法,为每一位学生提供个性化的服务,从而让用户快
卷积神经网络在计算机视觉领域得到了大量的应用,尤其是基于卷积神经网络的目标检测方法目前在学术界和工业界都受到了广泛关注。然而,由于卷积神经网络具有较高的计算复杂度,目前目标检测方法通常依靠大型服务器如GPU(Graphics Processing Unit)进行运算。但是,当前GPU平台存在功耗高、体积大以及成本昂贵等缺陷,使得基于卷积神经网络的目标检测方法难以应用于移动机器人、无人机等轻量化平台
如何基于给定的输入文本描述生成与之相一致的图像是一个十分具有挑战性的问题。目前的方法大都是首先合成一张初始模糊的图像,然后提炼这张初始图像去生成高质量的图像。然而,现在大多数的方法都很难合成与输入文本描述相一致的初始图像。所以如何在初始图像不好的情况下去合成高质量的图像至关重要。在本篇论文中,为了解决这个问题,基于生成对抗网络(Generative Adversarial Networks)做了以
面部表情是最直接、有效的情感表达方式,与之相关的人脸表情识别技术也被广泛应用于人机交互、智慧医疗等多个领域。人脸表情的表示模型分为离散分类和连续维度,离散分类模型把面部表情分为六种基本表情,而连续维度模型通过建立连续的情感空间来描述复杂微妙且连续变化的表情。自然环境下的人脸复杂多变,且连续维度模型对表情进行了更加细致的划分。本文针对自然环境下的静态图片和动态视频场景下的连续维度模型的人脸表情识别问
情感估计是人机交互中至关重要的一环,让机器准确地理解用户情感可以建立起更加和谐的人机环境。由于面部表情是人类表达情感的主要方式,因此,基于人脸视频的情感估计成为近年来的研究热点。情感主要有离散分类和连续维度两种模型表示。其中,基于连续维度的情感模型将情感状态映射到一个连续的维度空间中,相较于离散分类的情感模型,它可以描述出更复杂、微妙的情感。因此,本文致力于探究自然环境下的人脸视频维度情感估计,具
随着当今社会的发展,对室内定位的需求日益增加,由于GPS等室外定位技术在室内定位的应用受到限制,目前室内多采用射频识别(Radio Frequency Identification,RFID)、红外线、超声波、Wi Fi、超宽带(Ultra-Wideband,UWB)等定位技术,其中UWB由于时间分辨率高、穿透性强、抗多径能力强等特点,使得其更适用于室内定位,而其他定位技术大都由于易受环境影响、定