【摘 要】
:
文本情报包含的信息越来越多,来源越来越广泛,情报的价值判断尤为重要。而文本分类任务已经变成自然语言处理领域的一项处在热门研究中的基础技术。文本分类技术对于现阶段我国的情报管控及处理方式有重要借鉴意义,然而传统的人工标注的价值判断方式效率非常低下,将自然语言处理为核心的自动化分类模式用于情报数据的管理和分析,会产生十分深远的影响。本文以自然语言处理领域的发展为背景,结合现实情报机构的低效率处理的难题
【机 构】
:
中国电子科技集团公司电子科学研究院
【出 处】
:
中国电子科技集团公司电子科学研究院
论文部分内容阅读
文本情报包含的信息越来越多,来源越来越广泛,情报的价值判断尤为重要。而文本分类任务已经变成自然语言处理领域的一项处在热门研究中的基础技术。文本分类技术对于现阶段我国的情报管控及处理方式有重要借鉴意义,然而传统的人工标注的价值判断方式效率非常低下,将自然语言处理为核心的自动化分类模式用于情报数据的管理和分析,会产生十分深远的影响。本文以自然语言处理领域的发展为背景,结合现实情报机构的低效率处理的难题,尝试将文本分类技术应用于情报价值判断研究中,并对文本分类技术加以改进,探索提高情报处理效率和挖掘情报价值的方法。本文提出的情报价值判断基于情报特征提取延伸出情报真实性和情报领域价值,研究内容涉及以下几点:第一,深入研究文本分类的整个过程,通过调研和阅读文献,研究涉及数据预处理、特征提取、文本表示等必要流程,并将其应用到情报文本处理。同时针对文本分类过程中相关经典模型,设计出一种涵盖空间分布的分类能力指数增加重要特征词权重用于改进传统的CHI特征选取方法和TF-IDF特征加权技术。第二,情报真实性价值判断研究。针对情报文本二分类数据集,结合已有机器学习相关文本分类技术实现对每条情报数据的真实性价值判断,研究并介绍决策树、SVM、贝叶斯等常用的算法模型,并将分类能力指数应用于改进朴素贝叶斯算法,生成一种新的加权贝叶斯算法,并进行包含十组分类模型,三种加权技术,四项评价指标的对比实验证明引进分类能力指数的改进TF-IDF特征加权技术的高效性,分析情报真实性价值判断结果。第三,情报多领域价值判断研究。针对情报文本多分类数据集,结合深度学习相关文本分类技术实现对每条情报数据的所处领域的价值判断,如时政、社会、科技等。深入研究Word2Vec生成包含语义信息特征的词向量。使用预训练的情报文本词向量和字向量分别生成的输入到深度学习应用于文本分类的相关模型。探究使用词向量与字向量在情报文本数据集多领域价值判断的表现差别。设计多种算法模型设置对比试验,根据结果进一步研究深度学习模型应用到情报文本价值挖掘的适用性。本文的实验内容和实验成果是将自然语言处理理论与现实情报处理领域相结合,针对文本情报的高效率处理和挖掘情报价值有一定的参照作用。
其他文献
海杂波是指海面对雷达照射波的散射回波,海杂波的谱特性是海杂波特性研究的重要组成部分。海杂波的多普勒谱是指海表面单个距离门内连续相参时间序列信号自相关函数的傅里叶变换,多普勒谱参数主要包括谱频移和谱展宽。随着现代计算性能的不断提升,机器学习在处理超大规模数据时具有不可替代的优势。在雷达海杂波领域,机器学习方法的应用还相对较少,针对海杂波谱特性的智能化研究才刚刚起步。本文结合岸基雷达的海杂波实测数据,
海杂波背景下对小型船只、潜艇潜望镜、隐身舰船和无人机等海面漂浮小目标和掠海飞行的低空小目标等低可探测性目标的有效检测是对海探测雷达的重要任务,在军事和民用领域都具有重要意义。海杂波的特性受到环境因素和雷达系统参数的影响,变化复杂,对于高分辨率雷达系统,海杂波呈现出明显的非高斯特性,严重干扰弱目标的检测性能。本文研究海杂波背景下的弱目标检测方法,主要研究工作概括如下:1.分析了非高斯背景下微弱信号检
随着隐身技术的不断发展,对于低可见平台,天线逐渐成为雷达散射截面(Radar cross section,RCS)的主要贡献者。天线是雷达系统不可缺少的一部分,因此控制天线的散射,甚至通过各种技术手段使天线在一定范围内达到“零”散射,是当前隐身技术发展的一大趋势。针对该研究趋势,本文采用不同方法对阵列天线散射进行调控,主要工作如下:1.根据宽带微带单极子天线贴片和地板感应电流的分布,对电流分布稀疏
多个分布式机载或陆基移动平台上的雷达越来越受到关注,因为它们可以部署在调查事件附近,从而提供显著的感知机会。地面运动目标指示器(GMTI)在存在地杂波和其他干扰源的情况下检测和定位运动目标。利用天线阵列实现空时自适应处理(STAP)是机载雷达杂波消除的经典方法。STAP的挑战之一是目标的最小可检测速度(MDV)是天线阵列基线的函数:基线越大(即波束越窄),MDV越低。不幸的是,增加均匀线阵列(UL
目的:通过分析南昌市两区空气污染现状及特征,探索其对小学生肺功能的影响。以期为改善城市空气质量,降低儿童呼吸系统疾病负担采取重点防控策略提供相关依据。方法:于2015-2018年,采用分层整群抽样方法,每年从南昌市青云谱区和青山湖区各抽取1个学校的3-5年级各2个班级共2954名学生,通过问卷调查采集研究对象的年龄、身高和体重。同时,每年整群抽取其中2个班级的学生,共753名学生,进行肺功能检测,
目的 观察营养联合运动干预方法对脑卒中伴肌少症患者的疗效。方法 2022年1月至6月,华北理工大学附属医院住院的脑卒中伴肌少症患者60例,随机分为对照组、营养组、运动组和联合组,每组各15例。4组均予常规康复训练,营养组增加营养干预,运动组增加运动干预,联合组增加营养和运动干预,共4周。干预前后采用生物阻抗分析法评估肌肉指数,握力计测量健侧和患侧握力,采用改良Barthel指数(MBI)和Berg
雷达目标识别任务中受到战场环境中噪声、杂波的干扰,识别目标非合作以及反侦察技术的应用,难以获得目标完备、高质量的数据用以目标识别。高分辨距离像(High Resolution Range Profile,HRRP)作为目标识别重要手段之一,在实际工程中有着广泛地应用。但是HRRP存在姿态敏感性、幅度敏感性和平移敏感性的问题,对目标识别算法的设计和训练样本数量提出了挑战。这些问题都导致了HRRP目标
合成孔径雷达(Synthetic Aperture Radar,SAR)因其能够全天候、全天时工作的优点,被应用于了舰船目标识别领域。随着SAR图像分辨率的逐步提高与深度学习算法的蓬勃发展,以卷积神经网络(Convolutional Neural Network,CNN)为代表的深度学习方法逐渐取代了步骤繁琐计算复杂的传统方法。然而直接将应用于光学图像识别的深度学习方法迁移于SAR图像,存在着缺乏
随着雷达系统组成复杂化,雷达维护保障问题也变得突出,传统定期维护,事后维护方式已无法满足当前雷达运维保障的需要。随着基于状态的维护策略(CBM)的提出,预测与健康管理(PHM)已经成为雷达综合保障领域研究的核心技术之一。同时,机内测试(BIT)技术的发展使得监测雷达状态,获取监测数据变得容易。目前雷达的健康信息感知大多基于测试性建模的方法,随系统复杂度的提升,感知雷达健康信息也变得困难。目前,通过
空间分辨率是影响雷达性能的重要因素。距离维度上可以脉冲压缩等一系列技术实现距离维高分辨率,而对于方位分辨率仅仅只能通过增大天线孔径来获取更高的方位分辨率,因此亟需通过技术手段来实现方位高分辨率。对于低空领域,多径效应是影响测高精度的关键因素之一,因此围绕多径效应展开对低角测高的研究。本文主要对上述两个问题进行探究。首先,本文研究了雷达回波的卷积模型和多径效应下的几何模型。对于雷达的卷积模型给出了反