基于机器学习的双语词汇抽取问题研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:originalwinter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的双语词汇词典,一般由人工整理、编辑,具有权威度高、词条质量高的特点,但是其编制需要花费大量的人力、物力和时间。与此同时,随着互联网的发展和社会的发展,各种各样新的知识和话题涌现出来,每天都大量增加的新的词条,难以在短时间内通过人工添加到词典中去,造成了词典里的词条缺失、时效性不够等缺点。而随着互联网的发展,互联网所承载的信息量越来越大,页面信息越来越多,大量的双语词汇在网页页面中出现,从这些资源中,可以抽取大量有效的双语词汇。而且这些双语词汇具有词条新、专业术语翻译丰富等特点。如果通过一定的自动化手段,自动去收集整理这些有用的双语词条互译信息,积少成多,将会形成极为丰富的双语词汇资源。但是由于互联网信息的杂乱、非结构化和网页质量良莠不齐等问题,如何从非结构化的网页中去抽取双语词条是一个问题,而且因为抽取出来的词条并不一定是高质量的词条,所以将抽取的词条直接用来作为双语词条是不可行的。在抽取双语词条时,存在着(1)如何从网页文本等非结构化的数据中抽取双语词条。(2)如何去评估抽取的双语词条是否正确的。(3)对于抽取出来低质量的词条,是否可以进行加工后得到高质量词条等问题。针对这上面所列出的问题,本文提出了一种基于机器学习方法来抽取双语词汇,基于以前方法存在的问题,做出了如下的贡献:(1)首先,对于如何从文本这样非结构化的数据中抽取双语词条这个问题,传统的使用固定模式抽取词条的方法受限于人的先验知识所归纳整理的规则,本文提出一种基于模式挖掘的方法,首先使用固定模式去抽取种子词,再用种子词去抽取更多的模式,再用新的模式去抽取更多的双语词汇的方法,克服了固定模式带来的局限性,提高了召回率。实验表明,该方法提高了抽取双语词条的召回率,而且具有不受初始种子选取影响,迭代可以到稳定的收敛状态。(2)其次,对于衡量和判断抽取出来的双语词条是否正确的问题,分析了目前主要使用的各种基于单因素方法的局限性,提出了使用基于SVM模型来融合多种因素的方法,去判断双语词条是否为互译关系,实验表明,该方法提高了抽取双语词条的准确率。(3)最后,在词条抽取出来后,被判定为低质量的词条中,有相当一部分的词条可以通过截断得到高质量的词条,如果能正确判定词条截断位置,可以进一步地提高抽取的召回率。本文将词条截断位置判断的问题建模为一个排序问题,提出了使用监督排序模型来预测判定词条截断的位置。实验证明,与传统方法相比,改进后的方法提高了抽取出来的双语词条的准确率和召回率,取得了较好的效果。
其他文献
无线传感器网络是由大量的微小节点通过无线通信技术组成的资源受限的自组织网络。无线传感器网络集数据的采集、传输、分析于一体,是信息技术的一个新领域。网格技术利用计算
目前,原子力显微镜(Atomic Force Microscope,AFM)作为一种针对纳米级样品的成像与操作工具,已被广泛应用于生物、医学、材料等工业领域之中。原子力显微镜虽然具有非常高的成像
嵌入式系统的功耗随着芯片密度、性能要求的大幅增加呈指数增长,以电池供电的便携式设备的能耗问题尤为突出,随之而来的芯片散热成本增加、芯片稳定性下降等问题严重制约了嵌
随着企业信息化进程的推进和技术的不断革新,激烈的竞争和日益复杂多变的市场环境,让企业面临的不确定因素急剧增加,向企业的生存和发展提出了严峻的挑战。企业是一个复杂的系统
语音识别和人工神经网络模型长期以来都是学术界研究的重点,前者是方便计算机和人类交互的一种手段;后者使用数学方法对于人脑工作机制进行抽象和建模。本文将二者结合,使用人工
二十一世纪,网上购物已经成为人们主要的购物方式。随着互联网用户井喷式的增长趋势,电子商务网站每天不得不面临巨大的访问量。面对海量数据存储以及高并发读写,关系型数据
物联网是未来网络发展的方向,它的核心就是现在的互联网。无线传感器网络是一种低功耗低速率的短距离无线网络通信技术,也是物联网的重要组成部分之一,因此解决无线传感器网络与
随着国内金融市场的不断发展和完善,信用卡业务的增长为银行带来大量利润,信用卡客户的分析和研究也受到更多的重视。目前我国对客户价值的评价系统还比较简单,方法还比较单一,如
近年来,随着互联网+时代的来临,以及智能手机的普及,移动互联网越来越参与并辅助人们的生活。同时社会正面临严重的人口老龄化问题,日益增多的空巢老人数量,带来一系列的社会
随着经济发展,信息不对称、大量信息孤岛存在、客户数据无法统一等问题,增加了高科技企业信息管理工作的动态性和复杂性。本文从当前搜索引擎发展的背景和趋势出发,利用Microsof