基于Web数据的双语资源挖掘技术研究

来源 :沈阳航空航天大学 | 被引量 : 0次 | 上传用户:yanghong098
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着统计方法在自然语言处理中的广泛应用,双语语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可,尤其在机器翻译、跨语言信息检索和双语术语翻译等领域具有不可或缺的重要作用。以互联网为数据源挖掘双语资源可以有效解决传统人工构建语料库的规模不足,时效性、真实性、语种灵活性差等问题。现有的双语资源挖掘技术主要针对双语平行网页,从中提取相同位置的互译资源。由于这类网页数量少,对齐模型复杂,本文提出针对单一双语网页进行双语资源挖掘方法,通过介绍重点技术来描述双语资源挖掘的过程。本文提出了一种基于联合策略的双语网页获取方法。该方法通过启发条件扩展搜索项、过滤不相关网页,得到含有双语信息的网页,以频繁序列模式为特征,使用支持向量机对网页进行二分类,判断所得网页是否为双语网页。然后根据双语网页特点提出用频繁序列模式和种子模式构建规则库,通过规则匹配的方法提取出双语片段,同时使用非规则文本归属度来度量一个无法与规则相匹配的片段模式能否作为规则加入规则库。这样可以扩充规则库,满足双语资源存在的多样性与特殊性要求。在双语资源抽取的过程中,考虑到语言的差异性,对于难以通过编码区分的语言,加入语言特征,并在抽取信息时考虑语言特征的优先级等因素来完成双语资源的最终抽取。最后,本文构建了“基于Web数据的双语资源挖掘系统”,该系统不仅实现了上述双语资源挖掘方法,以可视化的方式展示实验效果,更加入了方便用户使用的查词、浏览网页、用户添加、指定网址抓取以及种子选择等功能,成为完整的面向用户的使用程序。
其他文献
随着互联网技术的发展和人工智能技术的进步,政府管理也正在从传统的管理时代迈向网络化的智能管理时代。以往电子政务平台所提供的简单功能已经不能满足日益发展的社会需要,
Internet构成了逻辑上的信息世界,改变了人们的沟通方式。本文中的Internet均指以太网。无线传感器网络(wireless sensor networks,简称WSN)是最新产生的一种以传感器技术为
随着三维数据获取技术的不断发展,使得人们可以快速有效的获取现实世界中物体的高精度表面模型。这极大地促进了三维点云模型在模式识别、三维重建、模型分割等领域中的广泛
入侵检测技术以其能够收集分析网络中关键点的信息、发现违反安全策略的行为,得到广泛的研究和应用。然而,入侵检测系统的报警存在的误报率、冗余率偏高、可扩展性差、报警层
通过声音来诊断疾病的方法,近年来因为其有简单、方便、快捷且无需损伤受诊人机体和无需侵入式检查的的优势受到了广泛关注。目前关于声音诊断的研究虽然很多,但是却缺乏统一
空中交通改航问题是一类特殊的资源分配与调度问题,它包括航班起飞时间的确定和最短路的搜索,以达到总延误最小为目标。本文以改航问题为研究对象,建立了DRDG(Dynamic Rerout
随着无线Mesh网络技术的快速发展,Mesh网络在军事和民用领域得到了广泛应用,发挥了巨大作用。与此同时,无线Mesh网络独特的体系结构引起的诸多安全问题得到了越来越多的关注,
随着电子商务站点中客户及项目数量的迅速增加致使产生大量的客户、项目元数据及客户-项目交易数据,而这些数据常常是不确定的,严重影响了个性化推荐质量的提高和客户满意度
在金融领域,风险管理是一个永恒的话题。金融风险管理既是金融机构自身经营特点的要求,也是经济稳定发展的要求。银行作为最主要的金融机构,发挥了举足轻重的作用,而风险管理
随着数据采集技术、计算机硬件以及软件的发展,数字多媒体数据在经历—维声音、二维图像、二维视频为表现形式之后,出现了第四代数字多媒体形式---三维数字几何模型。由于其