基于粒子群优化算法的汉英语句对齐研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:njtangxn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语语料库的构建在自然语言处理、机器翻译、数据挖掘、词典编纂、多语言信息检索等领域具有重要的应用价值。当今互联网上存在大量双语互译文本,通过对互译文本的处理,建立实用的双语语料库成为一个至关重要的问题。对齐技术的实现是互译文本处理的关键,而汉英语句对齐的核心是寻找汉英语句中互为翻译的源文和译文语句。双语文本的对齐可分为篇章、段落、句子、短语、单词等粒度级别。其中语句粒度上的双语对齐意义重大。因为语句的粒度小于段落的粒度,因此语句的对齐能够给对齐的段落提供更详细的互译信息;同时,语句的对齐往往是进行下一步更细粒度(如短语、词汇)对齐的必要前提。汉语和英语是世界上最具代表性的两种语言,因此,汉英语句对齐具有十分重要的研究意义。进行汉英语句对齐的研究也是汉英双语语料库走向实际应用的必要步骤。本文在研究构建汉英语料库中所使用的基本语句对齐方法的基础上,提出一种将汉英语句对齐问题转化为在潜在解空间中寻找汉英语句对齐的适应度函数最优解的问题。本文主要工作包括:①研究了汉英语句对齐的相关技术,汉英语句的预处理方法以及评价标准,分析了汉英语句对齐的难点,并针对性的提出一种基于CCA投影子空间进行优化求解的2步迭代模型,从而有效解决了汉英语句的自动对齐问题;②鉴于汉英语句的特征空间的不一致性,引入典型相关分析,寻找汉英语句的典型公共子空间,从而将汉英语句对齐的问题形式化为基于粒子群优化算法在双语公共子空间中寻找汉英语句对齐适应度函数最优解的问题;③考虑到基本粒子群优化算法在求解过程中容易出现早熟收敛、停滞等问题,改进了寻找适应度函数最优解的基本粒子群算法。通过k-means划分粒子群为多个子群,寻找子群的邻居以及邻居之间进行差异信息的交换,来寻找语句对齐适应度函数的最优解,从而避免汉英语句对齐过程中的早熟收敛问题。本文将求解汉英语句的对齐转化成基于粒子群优化算法寻找汉英语句对齐适应度函数最优解的问题。实验证明,基于粒子群优化算法的汉英语句对齐方法解决汉英语句的对齐问题是可行有效的。
其他文献
在自然界中,有很多同步现象,同样,神经网络也有同步现象存在。神经网络跟人工智能等众多应用领域结合起来,已成为潜力巨大的研究方向。在两个神经网络同步的过程中,初始状态的权值
近几年来,随着移动设备的迅速发展,越来越多的用户使用移动设备获取数据。移动用户可以使用手机、PDA、平板电脑通过无线技术(例如WiFi等)下载感兴趣的数据。这些数据有股票
分数阶和复数阶混沌动力学系统有着比整数阶系统具有更为丰富、复杂的动力学特性,同时还具有整数阶一样的随机性和不可预测性增加等优点。因此,近年来基于分数阶和复数阶微积分动力学系统的研究取得了不少的理论和实践成果。分数阶和复数阶混沌电路系统及其控制与同步、混沌保密通信等具有广阔的应用前景而受到人们的广泛关注。本文以简单的非自治耗散电路系统为研究对象,分析了分数阶和复数阶简单自治耗散系统的各种动力学行为,
由于生物医学文献不断增加,生物医学文本挖掘领域的相关研究逐渐活跃开来。生物医学文本挖掘的意义不仅在于生物信息的管理上,更重要的是在于生物文献中的知识发现和利用,从而增
互联网中存在着大量内容重复的网页。如何对大规模网页文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。高效的拷贝检测算法有非常广泛的应用,诸如搜索结果
传统的数据挖掘方法主要是找单个实体属性之间的关联,但是实际上实体之间的关系也具有很丰富的语义。基于图的方法很适合表示多关系数据。图中每个顶点代表实体,它们之间的边表
最近几年,移动对等网络(MP2P)逐渐成为了移动通信领域的研究热点,正引起学术界和产业界的关注,成为如今计算机和通信领域研究的热点之一。MP2P主要的研究方向是在无线移动网络环境
现有的物联网应用大多数都是局限于同一有限的区域内,应用相对比较固定,且同时由于缺乏灵活性而不便于统一管理多个物联网。随着物联网应用的普及,寻找一种应用更灵活、管理更便
人脸识别是一项挑战性的研究课题,以致得到了诸多不同学科领域研究人员的青睐。人脸识别技术广泛运用到国家公共安全、社会安全及商业等领域,如公安刑侦破案、监控、信息安全
蚂蚁个体智能十分低下,但整个蚁群却拥有惊人的智能,能够完成远远超出蚂蚁个体能力的复杂任务。通过对蚂蚁社会性行为的观察发现,蚁群通过一种媒介质机制来协调蚂蚁个体的行为,使