融合词和主题表示学习方法的研究

来源 :河北地质大学 | 被引量 : 0次 | 上传用户:aivinator
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展催生了大量的文本数据,这些丰富的文本信息如何学习并进行有效表示成为了自然语言处理中的热点问题。词表示学习是文本信息表示的基础问题,通过参数化对词进行有效表示。研究者提出了大量词表示学习方法,主要通过词的上下文学习当前的局部语义表示。但是此类方法无法获得词的全局语义信息,导致词表示不够准确。主题发现模型,如LDA(Latent Dirichlet Allocation),可学得词的全局主题语义信息,但使用词袋模型不考虑词语顺序忽略了词的局部语义信息以及其他语法特征。2014年以来,研究者提出一些将词表示学习和主题发现结合的方法,利用主题发现丰富词表示的语义信息,同时利用词表示提高主题发现的准确性。随着图表示学习的发展,网络结构数据受学术界和工业界的关注,近来有研究利用网络表示学习方法实现文档的语义表示。但现有方法主要学习文档级的语义表示,不能学习词粒度的语义表示,且词的许多语义信息可通过词间的各种网络体现,因此,有必要研究词网络的构建以及基于词网络的词表示学习和主题发现方法。主要研究内容包括:(1)根据文本与网络的相似性,考虑文本的自然语言特征,基于词共现、词性、句法分析等角度对文本进行分析。将词视作节点,词间关系视作连接权重,设计一种融合多类型词间关系的词网络构建方法,并通过真实数据分析获取词网络。(2)提出一个融合词表示学习和主题发现的概率生成模型,同时实现词表示学习和主题发现任务。该方法基于上述词网络,利用网络表示学习方法对词网络结构进行训练,融合词的局部邻近词和词的全局主题信息,实现词表示学习和主题发现。实验结果表明,我们的方法在与经典的NLP(Natural Language Processing)方法进行对比均有提升。
其他文献
学位
环状RNAs(circular RNAs,circRNAs)是一类新发现的通过反向剪切形成的具有环状闭合单链结构的非编码RNAs(non-coding RNAs)。CircRNAs在真核生物中普遍存在,目前已在多种动植
学位
学位
与传统的Si PiN功率二极管相比,4H-SiC PiN功率二极管在击穿电压、开关速度、电流密度以及结温承受能力等方面更具有优势。然而,4H-SiC功率PiN二极管在实际应用过程中,不可避免的会经历大电流、过冲电压等工作环境,导致器件内出现微观或者宏观的损伤,进而影响器件的可靠性。近年来,SiC PiN二极管浪涌能力的相关研究成果指出:自热效应与器件的抗浪涌能力密切相关,然而并未考虑器件内部缺陷的
由于肿瘤发生的复杂性,通过单一治疗方法难以完全治愈,肿瘤协同治疗可以避免单一治疗方法的局限性,发挥多种治疗的联合优势。化疗-免疫联合治疗作为一种重要的协同治疗方法,获得了人们的广泛关注。化疗和免疫治疗除了发挥各自的作用外,还可以彼此促进。随着用于肿瘤免疫治疗生物材料和药物的不断研究发展,生物材料的介导为化疗-免疫联合治疗提供了新的策略。另一方面,为了实现精准治疗,利用多光谱荧光成像技术能够客观评价
陈染是20世纪90年代中国大陆最具代表性的女性作家之一,其作品带有浓厚的自叙传色彩和强烈的女性意识。陈染对自身和社会有着深刻而清醒的认识,她通过对女性心理和身体的细致描写,在抒发其情感追求的同时,试图寻找女性的精神归宿。本论文共分为三个部分。第一部分论述陈染及其作品中的女性所面临的窘境。她们走在人生的边缘,想要逃离这种与世人相隔绝的孤独状态,却又无法实现。第二部分论述陈染作品中女性矛盾的心理状态。
学位
东方蜜蜂(Apis cerana)在中国分布广泛,是传统农业中的主要传粉昆虫之一。东方蜜蜂具有体型小,头胸部为黑色,腹部表现为黑黄色,全身覆盖黄褐色绒毛的特点。并且具有许多西方蜜蜂没有的优点,如对零星分散的蜜源植物利用率高、采蜜能力强且采蜜期长适应性强、对螨虫和病害具有极高的抵抗力,消耗饲料少等。但由于西方蜜蜂的引进,对我国东方蜜蜂的养殖事业造成了极大威胁,甚至造成某些地区东方蜜蜂的逐渐灭绝。因此
随着无线通信技术的发展与移动端的普及,爆炸式增长的数据需求以及日益增多用户接入数目对无线通信系统的要求越来越高。非正交多址接入技术(NOMA)由于其更高的频谱效率以及高吞吐量等特点,使得海量连接以及超高通信容量成为可能,是移动通信中的关键性技术之一。无线中继技术可以大幅提高无线通信业务的覆盖范围和可靠性,使得受到距离限制的信息传播成为可能。然而无线通信网络的高度开放性给信息安全带来了巨大隐患,物理