【摘 要】
:
近年来,词语向量表达(word vector representation)被广泛地应用于各种自然语言处理(natural language processing,NLP)的下游应用中,如机器翻译、文本分类、情感分析等。高质量的词语向量表达可以使自然语言处理模型更了解语言,进一步提升自然语言处理模型的性能。已有的研究表明,采用知识库或词汇分类体系提供的语义约束,对通过大型语料库训练得到的词语向量表
论文部分内容阅读
近年来,词语向量表达(word vector representation)被广泛地应用于各种自然语言处理(natural language processing,NLP)的下游应用中,如机器翻译、文本分类、情感分析等。高质量的词语向量表达可以使自然语言处理模型更了解语言,进一步提升自然语言处理模型的性能。已有的研究表明,采用知识库或词汇分类体系提供的语义约束,对通过大型语料库训练得到的词语向量表达进行修正,可以有效地改善词语向量表达的能力。然而,人工编织或者半人工构建的词汇分类体系普遍存在语义约束可靠性不稳定的问题,一定程度上影响了从中提取的语义约束的正确性,不可靠的语义知识会对词语向量表达修正带来负面的影响。本文对词语向量表达修正研究领域进行有益补充,提出可靠词汇语义约束的提取方法,并把提炼出来的可靠词汇语义约束应用到词语向量表达修正中,主要的研究工作如下:(1)提出基于异构词汇分类体系交互确认的词汇语义约束可靠性评价方法,并应用与词语向量表达修正。本文考虑到不同类型的词汇分类体系对词语向量表达修正带来的潜在的差异,分别提取异构词汇分类体系中的词汇语义约束,并通过交互确认评估词汇语义知识的可靠性。进而针对交互确认后的词汇语义约束适用性问题,改进原有的词语向量表达修正机制,提高了修正后的词语向量表达的词语相似性计算能力。(2)提出综合异构词汇分类体系与词向量交互确认的可靠性词汇语义约束提炼方法,并应用于词语向量表达修正。本文在基于异构词汇分类体系交互确认可靠词汇语义约束的基础上,针对训练词向量时词频稀疏的词语容易产生不可靠的原始词向量的问题,进一步提出基于词汇分类体系与词向量之间、以及异构词汇分类体系之间的交互确认的可靠词汇语义约束提炼方法。该方法对词汇分类体系提供的同义词语类,进行词向量计算和类内词语的可靠性评估,剔除不可靠语义约束。在此基础上,通过不同词汇分类体系的交互确认恢复了部分误剔除的语义约束。并通过核心词约束传递机制避免原始词向量不够可靠的词语在词向量修正中的不良影响。该方法有效地降低错误词汇语义约束以及训练不充分的词向量在基于语义约束的词语向量表达修正中的不良影响,提高了修正后词语向量表达的质量。(3)提出基于聚类质量评估的类内词语词汇语义约束可靠性评价方法,并应用于词语向量表达修正。在基于可靠词汇语义约束提炼方法的基础上,进一步探索同义词语类中的词汇语义约束修正权重问题,研究怎样的指标有助于更好地对类内词语的词汇语义约束进行可靠性评价。本文使用聚类质量评估方法中的类内紧凑性作为同义词语类类内词语的可靠性评价指标,在修正的过程中根据词汇语义约束的可靠程度进行量化的差异权重修正。该方法充分考虑词汇语义约束的可靠程度对词语向量表达修正中的影响,进一步地提高了词语向量表达的词语相似性计算能力。本文采用NLPCC-ICCPOL 2016词语相似度测评比赛中的PKU 500数据集进行测评。在该数据集上,本文提出的方法提炼的可靠词汇语义约束应用到两个轻量级后修正的研究进展方法,修正后的词向量都获得更好的词语相似度计算性能。实验结果表明,本文所提出的异构词汇分类体系的交互确认机制、词汇分类体系与词向量的交互确认机制、核心词约束传递机制、以及基于聚类质量评估的可靠性评价指标均有助于提高词语向量表达的修正质量,所获得的最好结果取得了0.6570的Spearman等级相关系数,比NLPCC-ICCPOL 2016词语相似度测评比赛第一名的方法的结果提高26.8%。
其他文献
水稻和小麦、玉米并称世界三大粮食作物,在世界粮食生产中有举足轻重的地位。水稻是中国主要粮食作物之一,目前,中国的水稻产量居世界第一位。小区试验育种是培育优良品种的重要方法,而目前我国水稻小区育种方式比较落后,机械化程度低,以人工育种为主,效率低,成本高,因此,急需发展现代化的小区育种机械。本文针对水稻小区育种的播种需求,以华南农业大学已研制成功的水稻气力式精量排种器为基础,设计了一种适合水稻小区育
保守转录因子LEAFYs(LFYs)对陆生植物的生长发育具有重要作用。Rice FLO-LFY Homolog(RFL)是水稻(Oryza sativa L.)中的LFY同源物,它与LFY具有相似的蛋白结构域,但功能却发生了分化。拟南芥中LFY主要参与花发育过程,而水稻RFL不仅参与花发育过程,还对株型、叶型、穗型、开花时间等方面具有明显的控制作用。rfl突变体在营养生长阶段呈现植株矮化、叶片短小
由尖孢镰刀菌古巴专化型(Fusarium oxysporum f.sp cubense,FOC)引起的香蕉枯萎病,给国内外迅猛发展的香蕉产业造成最严重的损失。其中由4号生理小种(FOC4)所引起的香蕉枯萎病,对香蕉种植业的危害最为严重,至今仍然没有找到长期有效能够很好的控制该病害的流行发生的防治方法。目前,较为理想、应用前景较好的措施是抗病育种和生物防治。本研究对前人从土壤中分离筛选得到的对FOC
2013年我国首次出现人感染H7N9亚型禽流感的病例,该病毒在家禽上无任何症状显现,为低致病性(LP)。此后,LP H7N9亚型病毒在全国范围内迅速蔓延,造成了五波疫情的流行。2016年6月,我国首次分离到了新型高致病性(HP)H7N9病毒,其在血凝素(HA)蛋白的裂解位点处具有多个氨基酸(KRTA)的插入。HP H7N9病毒的流行不仅造成家禽大规模死亡,而且导致的人感染病例的激增。据统计,第五波
火灾对于人类的生命财产安全具有严重的威胁,对火灾早期进行探测并及时预警对于减少各种损失意义重大。随着智能监控设备的普及,基于视频的火灾探测技术受到关注。火灾发生初期由于物体处于阴燃状态,常伴随烟雾的产生,通过对烟雾的识别可以及时探测早期火灾。传统的定点检测器通过光学法或者电离法检测烟雾产生的某些颗粒。定点探测器对烟雾量有要求,烟雾到达探测器有一定时延。烟雾在室外扩散的空间范围随机,不可能安装定点检
随着实际环境复杂性的提高,人们对移动机器人的自主性和智能性也随之提出更高的需求。本课题结合前人的研究成果以及本课题组的研究需求,为后续智能仓储堆垛叉车的智能化和自主化提供一定的参考价值,在室内未知环境下对移动机器人进行自主探索建图技术的相关研究。通过加入有效的自主探索策略、结合实际环境,在自行搭建的移动机器人平台上实现对未知室内环境的自主探索与地图构建的功能。主要研究内容及结果如下:(1)完成了室
辣木(Moringa oleifera Lam.)是一种速生多用途的落叶乔木,不仅生物量大,而且营养价值高。本试验以获得优质蛋白饲料为目标,通过优化黑曲霉(Aspergillus niger)、产朊假丝酵母(Candida utilis)和枯草芽孢杆菌(Bacillus subtilis)混合发酵辣木茎叶粉的工艺条件,并对辣木茎叶粉和辣木叶粉发酵前后的营养成分进行比较。同时,通过揭示辣木叶粉发酵过
在家禽养殖中,定期测量鸡只的体积鸡脚参数等特征参数是评估鸡只健康生长与优质肉鸡选择育种的关键,鸡只的体积与鸡脚参数信息是家禽饲养管理的重要指标,但是目前鸡只体积、鸡脚参数信息的获取多数还停留在传统人工卷尺测量上。为此,本文开展了鸡只体积和鸡脚参数测量方法研究,利用深度摄像头采集鸡只样本并实时监测其体积与鸡脚参数,主要工作如下:(1)构建了基于xtion的鸡只体积和鸡脚参数的数据采集系统。介绍了系统
细菌耐药问题被世界卫生组织评定为一个重大的全球卫生威胁。细菌一般通过染色体突变或者基因水平转移两种方式获取对抗生素的耐药性,其中后者是耐药性传播的主要原因,此过程一般通过转化、结合和转导方式进行,而以噬菌体为主要对象对基因进行转导传播的方式又是细菌基因水平转移的重要方式之一,却总是被忽视。本文通过裂解性噬菌体和溶原性噬菌体两方面对耐药基因水平传播进行评估,在裂解性噬菌体和溶原性噬菌体的基因组上,我
黄梁木(Neolamarckia cadamba)是亚热带和热带地区重要的速生用材树种之一,自然条件下,黄梁木枝条扦插生根较难,导致其不能快速繁殖,影响了在生产上的推广应用。研究发现黄梁木在添加生长素的培养基中可快速生根。为探讨其机理,本论文详细观察了黄梁木不定根的发生过程,利用优化的激光显微切割技术获取了组培苗不定根原基发生过程中3个关键时期的细胞组织,并进行转录组测序,获得了一批相关基因,为遗