基于语义指纹和云模型的动态词义变化程度研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：goodyyl00

【摘要】

：

词作为语言的基础,具有相对的稳定性。但是语言是不断往前发展的,作为语言的一种成分,词又具备着语言的发展变化性。随着互联网的发展,信息成指数级增长。在网络这样特殊的环

【作者】

：

潘霄航

【机构】

：

华中师范大学

【出处】

：

华中师范大学

【发表日期】

：

2016年期

【关键词】

：

词向量语义相似度语义指纹云模型动态词义

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

词作为语言的基础,具有相对的稳定性。但是语言是不断往前发展的,作为语言的一种成分,词又具备着语言的发展变化性。随着互联网的发展,信息成指数级增长。在网络这样特殊的环境下,许多汉语词语的语义发生了显著的变化。如何深入了解网络词义的构成要素,准确全面提炼网络词义的静态特征和动态特征,进而给出集合静态要素和动态要素于一体的网络词义的形式化表示方式,是一项有重大意义且有挑战性的研究工作。在传统的语言学中,词义的演变是一个重要的课题,取得了很多显著的成就。但在语言学上对词义的发展演变只能进行定性的分析,需要精确的进行数据收集,耗费大量的人工。而在定量的研究上,往往使用一些简单的统计量,例如词频,上下文相关度等作为词义变化的度量,结果很难具有说服性。因此本文提出具有统计学意义上的研究方法,对词义变化现象进行深入的发掘,给语言学家及自然语言处理等领域的学者提供参考。本文基于词义的表示方法,改进深度学习中词向量训练模型,得到词的向量化表示。在此基础上,通过词之间的语义关联,实现了基于词向量的语义指纹获取方法。我们以历时的语料库作为训练语料,获取不同时间段词义的语义指纹,通过云模型,获取其数字特征。通过对相似云的相似度计算,我们可以得到词义的变化程度,从而发现词语的语义变化程度。第三章提出一种基于词向量的语义指纹获取方法,该方法使用大规模语料库进行模型训练,可以获取更多的语义关联信息。首先,本文在基于word2vec的基础上,通过在训练过程中加入词性标注信息,给出Pos-CBOW模型,能得到效果更好的词向量。通过词向量之间的相似度计算,获取词义之间的语义关联。将和中心词的相似度大于一定阈值的词作为中心词的语义指纹。提出基于词向量的语义指纹获取方法,能更好的形式化表达词义。第四章在第三章的基础上,通过云模型的定性定量转换理论,获取词义的数字特征。针对历时的语料库训练出来的词义,我们利用相似云的相似度计算公式来计算词义的动态变化程度。本文第三章用2015年新浪新闻,共1G的文本作为训练语料。将wordSimilarity-353和words-240作为测试集。从实验结果可以看出,文中提出的基于词向量的语义指纹方法在斯皮尔曼相关系数和皮尔逊相关系数上有良好的表现。这也间接表明本文方法的可行性。在第四章中,以历时的语料库作为训练语料,通过计算不同时段词义的概念云的相似度,来发现词义是否发生改变。实验结果表明,我们的方法可以有效的计算词义的改变程度。

其他文献

HDVoD：P2P视频点播系统模型的研究

近年来随着高带宽网络的普及，流媒体应用包括视频直播、视频点播等业务得到了迅猛的发展，它们已经成为当代互联网服务的重要组成部分，成千上万的用户能够通过IPTV和视频点播业务

学位

视频点播系统带宽特性对等网络离散事件模拟器

人工免疫模糊聚类方法及其应用研究

模糊聚类算法是一种重要的数据分析方法，具有能客观地反映现实对象隶属关系不确定性的特点，近年来已成为数据挖掘理论体系中研究的热点，并且在众多领域得到了广泛应用。　　但

学位

模糊聚类人工免疫客户关系管理消费模式抗体分布

元搜索引擎检索结果聚类技术的研究与改进

在网络应用服务发展的今天，信息获取已成为网民使用Internet的主要目的之一。由于传统搜索引擎存在不足及自身的局限性，限制了人们对资源的获取。现存的大多数元搜索引擎以线性

学位

元搜索引擎检索结果聚类处理混合聚类算法

基于Flex实现的富互联网应用中的Push技术研究与应用

随着互联网应用技术的发展，富互联网应用成为新一代Web应用发展的方向。进入RIA时代之后，实时 Web应用大量涌现，致使Web应用中的数据实时性问题更加突现。传统的基于Pull策略的

学位

富互联网应用数据推送Web应用实时性

偏微分议程的并行计算与应用研究

科学与工程计算涉及国民经济建设、洪涝灾害防治，环境保护等重大领域，其水平也是衡量一个国家综合国力的重要指标，而这些问题最终都归结为偏微分方程的求解。虽然偏微分方程数值

学位

有限差分法并行计算偏微分方程计算效率差分格式迭代计算法

蚁群算法在生物质发电配网规划中的应用研究

配电网规划是电力系统规划的重要组成部分,对其进行科学合理的优化,寻找最佳配网决策将带来可观的经济和社会效益。生物质发电配电网规划是低压的配电网规划,根据变电站的容量及用户的负荷容量,设计最佳的网络结构,为用户提供长期稳定、并能满足用户需要的电力。生物质低压配电网涉及每个自发电站的位置、容量大小等非线性数据问题,同时服从每个自发电站容量、辐射状网络结构以及可靠性要求等约束,是一个非线性、多目标、多约

学位

蚁群算法配电网络规划信息素优化生物质能

代码-文档关联可追溯模型的研究和实现

软件工程各阶段产生的软件过程产品主要包括软件需求文档、设计文档、用户手册、测试用例、软件代码等，也就是说，软件过程产品主要以文档和代码的形式存在。因此，文档．代码可追溯

学位

代码-文档关联可追溯模型软件维护语义索引机器翻译查准率

类库的刻面描述与检索

长期以来，软件开发过程都存在着重复开发的现象。软件复用的出现，一定程度上解决了软件开发存在的弊端。所谓软件复用，是指通过已有软件的各种相关知识来建立新的软件，它可以有效

学位

类库刻面描述检索技术软件开发语义扩展

基于P2PSIP覆盖网的VoIP系统研究与实现

近年来，随着因特网的不断发展和VoIP技术的逐渐成熟，基于IP网络的数据通信业务已经逐步和传统的语音业务相融合，这一融合具有巨大的市场潜力和广阔的发展前景，但也面临一定的技术

学位

P2P网络模型SIP协议覆盖网VoIP技术

基于异构节点和时延模型的应用层组播树构建算法研究

当前移动互联网技术飞速发展和快速推进，推动了移动终端的综合性能快速增加、4G网络商业化部署推进与终端设备功能逐步完善，推动终端用户指数级增加，同时终端用户对移动流媒体需

学位

数据通信网应用层组播网络路由通信协议

基于语义指纹和云模型的动态词义变化程度研究

其他学术论文