基于Web的大规模双语知识挖掘算法的研究与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:YouYiDian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语知识就是同时以源语言和目标语言来表述同一概念的知识。在很多自然语言相关的研究领域里面,双语知识都是一种极其重要的资源,比如统计机器翻译利用双语知识作为训练语料,跨语言信息检索利用双语知识来查询使用不同语言编辑的网页,等等。   当前双语知识抽取的研究工作主要集中在两个方面,一是使用对齐算法从平行语料中抽取双语知识,二是使用基于预定义模式的匹配算法从双语网页中抽取双语知识。本文使用双语网页为数据源,提出了一种基于自适应模式的双语知识挖掘(Adaptive Pattern Data Mining)框架,该算法可以从不同的网页中自动地学习到该页面中双语知识的翻译模式,之后再利用模式匹配方法将当前页面上所有与学习到的翻译模式兼容的双语知识提取出来,这样我们就可以得到大量的双语知识。   本文提出的方法主要包含四个步骤:1)预处理:处理编码格式转换、HTML文件解析,以及将网页文本按照语言属性进行切割;2)种子挖掘:利用双语对齐模型识别双语翻译对,双语对齐模型的优点是将翻译和音译过程统一考虑,一定程度上解决了“混合翻译”和“意译”的识别问题;3)模式学习:从种子挖掘模块得到的双语翻译对中学习翻译模式,使用Ranking-SVM对所有抽取出来的翻译模式排序,保留最优模式(TOP1);4)基于模式的挖掘:将学习得到的翻译模式在当前网页文本上进行匹配,保存所有能够匹配成功的文本作为双语知识,该模块能够保证我们得到大量的双语知识。   基于以上四个流程,本文实现了一个实际运行的系统,并在此基础上,给出了一系列的实验,这些实验从宏观和微观两个方面证明了本文提出的方法是切实可行的。宏观上,利用本文提出的挖掘系统,我们在不到3天的时间处理了超过30亿的Web页面,得到了千万级的双语知识,而且人工抽样评测的准确率超过80%;微观上,在人工标定的测试数据集上,我们定量的分析了系统各个模块对系统最终挖掘结果的实际影响,同时,微观方面的评估也帮助我们优化了系统运行参数。
其他文献
随着互联网中信息的爆炸式增长,搜索引擎在人们生活中的作用越来越重要,人们对于搜索结果精度要求的提高,使得面向特定领域的垂直搜索引擎的诞生了。对于服务于垂直搜索引擎
随着Internet的飞速发展,Web上可用的Web服务越来越多,如何从庞大的服务群中获取满足需要的服务成为值得关注的问题。然而传统的Web服务发现技术是在语法描述的基础上,通过关键
学位
面向对象技术(OOP)很好地解决了软件系统中单个业务功能的模块化问题,但其对于横切关注点问题没有提供很好的解决方法。面向方面技术(AOP)正是对面向对象技术在这一问题上的
随着互联网技术的迅猛发展,如何保证网络的安全与畅通是网络维护所面临的一个重大课题。网络测试仪是网络安装与维护人员进行网络安装与维护测试的重要工具。目前,网络检测工
随着软件技术的快速发展,面向服务的软件作为一种新型的软件应用模型正受到越来越多人的追捧。在对面向服务的软件体系结构的深入研究过程中,诞生了许多以服务构件为粒度的构
业务规则是否被有效管理,以及是否能够达到正确、一致和完备的要求,一直都是困扰企业的问题。要利用业务规则对业务系统进行分析与建模,规则本身的一致性与完整性分析就显得非常
随着组件技术的发展,基于组件的软件开发逐渐成为软件工程界的应用研究热点。组件,特别是第三方组件的广泛使用,大大提高了软件开发的效率,降低了软件开发成本。然而,组件开
问答系统是信息检索的高级形式,其中问题理解模块的问题分类任务能够为后续的信息检索模块缩小搜索范围,并有助于答案抽取模块制定抽取策略,对问答系统整体性能的提高具有重
管理信息系统(MIS)是一个由人、计算机和管理软件等组成的能进行信息的收集、传递、存储、加工和使用的系统。随着科技的发展,信息的日益膨胀,企业信息化成了企业在竞争中处于