【摘 要】
:
随着网络文本数据日益增长,文本之间错综复杂的关系也亟待梳理,但庞大的数据量和专业的领域知识,令人工确定文本之间的关系非常困难。因此,利用计算机技术自动发现不同文本的关联性,以加深对于特定文本的理解非常重要。本文针对内容关联任务中文本长度较短、内容专业性强及语料数据不平衡等特点,探索了文本特征及相似度计算方法的选择和融合、特征压缩及优化、显著负例的选择三个问题,以期有效提升内容关联任务的效果。为了解
论文部分内容阅读
随着网络文本数据日益增长,文本之间错综复杂的关系也亟待梳理,但庞大的数据量和专业的领域知识,令人工确定文本之间的关系非常困难。因此,利用计算机技术自动发现不同文本的关联性,以加深对于特定文本的理解非常重要。本文针对内容关联任务中文本长度较短、内容专业性强及语料数据不平衡等特点,探索了文本特征及相似度计算方法的选择和融合、特征压缩及优化、显著负例的选择三个问题,以期有效提升内容关联任务的效果。为了解决上述三个问题,本文首先尝试了多种文本特征,并重点研究了隐含狄利克雷分布模型,探究文本在主题上的分布情况,构造了主题特征向量及特征矩阵。在此基础上,分别应用了无监督的方法和有监督的方法来计算文本的关联性。无监督方法包括多种基于统计学的相似度计算方法,主要有Jaccard相似度、Cosine相似度、IDF相似度、WordNet相似度等,与以往研究不同,本文将特征分析与相似度计算过程视为整体,探索出了多种特征之间的融合规则。有监督方法包括卷积神经网络模型和生成式对抗网络模型,为了使主题特征适应卷积神经网络结构,本文使用主成分分析(Principal Component Analysis,PCA)和奇异值分解(Singular Value Decomposition,SVD)对主题特征矩阵进行降维,并且通过计算相似度矩阵向特征中加入相似度信息,实验证明可以有效提高神经网络的训练速度和结果。最后,针对内容关联任务及相似任务中常出现的负例过多,即数据不平衡问题,本文深入研究了生成式对抗网络的原理,通过将负例分为DNS和SNS两种,提出SSD和SRSD方法,使用相似度选择和判别器奖励模块替换生成器,为判别器提供了更加显著的负例,实验证明在处理不平衡数据时,其效果要优于原始生成式对抗网络。
其他文献
传统的两栖车辆只能在陆地和水面上航行,增加两栖车辆的可潜性能,可以躲避海上的风浪,有效减小航行阻力,增加车辆的隐蔽性,能够显著提高侦察能力和作业时长。因此,两栖车辆在水下时的机动性能具有重要的研究意义和应用价值。本文参考了美国两栖战车AAAV,建立了以对称楔形车体为主体,以喷水推进器为推进装置、燃料电池为其动力装置、矢量喷嘴为其操控装置的可潜式两栖车辆方案,对该方案下的水下航行机动性能进行了研究。
党的十九大会议上提出实施乡村振兴战略,“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”为总要求。这是党站在中国特色社会主义进入新时代历史方位下的“三农”工作方略,是习近平“三农”思想的集中体现。乡村振兴战略是一项复杂的系统工程,内容多、难度大、任务重,需要各地区做长期艰苦的努力。正确认识当前乡村发展水平,准确把握“三农”发展中的存在的问题,找出切实有效的发展途径,是实现乡村振兴战略目标的关键。
随着“中国制造2025”计划的逐步实施,中国许多依靠廉价劳动力的中小型企业,正在面临着产业的转型和升级,制造业中越来越多的企业正在往多品种、小批量、智能制造的方向发展
我国是紧固件产销大国,紧固件年产销量世界领先,但是由于缺乏自主知识产权,我国紧固件产品在国内外市场竞争力极低。市场竞争日益激烈,紧固件企业的生存与发展环境日益严峻。如何有效应对当前挑战,培育企业核心竞争力成为企业决策者们亟需解决的问题。实践表明,专利是企业保护自主知识产权,提升企业核心竞争力的有效手段。专利是一种有效的战略竞争工具,企业专利战略的实施可以为企业带来持续的、稳定的发展动力。本文以M公
高新技术企业成为近年来我国经济发展的核心主体,成为我国市场经济体系中不可或缺的部分,高新技术企业为推动我国经济发展以及经济结构的转型做出了巨大的贡献。对于高新技术企业来讲,科研人员是其发展的根本,其所掌握的知识和技术是高新技术企业市场竞争的关键。但是就我国高新技术企业的发展现状来说,其研发人员的付出及收获存在不成正比的情况。一方面,科研成员的工作成果对于企业的贡献难以实现良好;另一方面,在科研人员
随着大数据时代的到来,数据分析逐渐显露出其巨大的价值。作为数据分析的重要组成部分,缺失值插补技术直接影响数据分析的准确率,进而影响数据分析的结果。关于缺失值插补的
杠杆是保证企业资金正常流动和实体经济发展的重要动力。但在经济进入下行周期,高杠杆、高投入的粗放型经济发展模式积蓄了大量的流动性风险和信用危机,并与宏观经济降速换挡共振,使宏观经济景气指数下降。企业高杠杆和宏观经济不景气叠加造成企业偿付能力不足甚至破产重组,银行的不良贷款风险持续凸显,聚敛为局部金融风险。局部金融风险通过金融关联网络进一步传染、外溢,演变为破坏性更大的系统性金融风险。抑制企业杠杆畸高
工业生产中,工业机器人的应用需求越来越广泛,对其运行速度,精度等要求也愈来愈高,柔性关节是决定工业机器人运动的定位精度的关键之一。谐波减速器作为轻型工业机器人柔性关节主要部件,其稳定精度也成为制约高精度机器人产业发展的关键。含有谐波减速器的柔性关节所表现出一种非平滑的强非线性迟滞特性,不可避免地影响传递精度。从信息补偿角度,建模补偿提高谐波减速器转换精度,建立柔性关节的迟滞模型成为首要条件。针对工
据报道,随着社会化学工业的发展,空气、土壤和水资源都受到了严重的污染,尤其是水资源的污染给人们的生活和健康带来威胁。光催化技术因其可以直接利用太阳能、绿色无污染、催化效率高等特性,已经成为有效处理污水的新途径。目前,开发并常用的光催化剂有Ti O_2、Zn O等,然而,因为采用的光源是仅占太阳光3-5%的紫外光,这一条件限制了催化剂在光催化领域的实际应用。因此,研究并开发对可见光响应的半导体催化剂
重大工程作为我国在新时代高速发展的重要支撑以及改善民生的重要手段,其管理过程一直是项目管理研究领域的重点问题。而其复杂性、多样性又成为了科学研究领域的难点。在重大工程的全生命周期中,决策管理是一系列项目管理工作的基础和前提,在重大工程管理工作中占据着非常重要的地位。而现阶段关于决策管理的研究主要针对于决策管理的定义以及具体实施,对于决策管理的量化分析研究较少。因此本文将基于重大工程决策管理中的公共