基于短语的汉维(维汉)统计机器翻译研究

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:lianxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
描述了利用电话录音的汉维平行语料库构建了一个基于短语的统计机器翻译系统。我们对词级的语料库进行了切分,得到了词素级的语料库,进行了词一级的实验和词素级的实验,实验表明,词素级的实验能得到更好的效果。
其他文献
维、汉双语远程教学系统是符合国际Unicode代码标准的,基于Internet TCP/IP协议的,能够同时支持含维吾尔文和汉文的多语种复杂文字信息的双语化多媒体远程教学系统,该系统具有维吾尔文与汉文双语界面的自动切换,双语文本显示与传输,师生双语对话,以及多媒体课件实时录制与传播,屏幕共享,电子举手与电子教鞭等功能,从而解决了传统课堂教学在时间、空间和语言上的制约问题,大大扩展了教学规模,实现名
本文利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现了一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对每一类哈萨克语文本形成特征的权重向量,然后根据K-最近距离算法判断测试文本的所属类别,实验结果表明此方法可行。
《蒙古语同形词信息词典》是为解决蒙古文的同形词歧义消除而研制的一部机器词典。从词典建设维护的实际需求出发,我们初步设计和实现了《蒙古语同形词信息词典》管理平台,本文主要介绍了管理平台设计和实现的基本方法。
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,然后针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,并利用分词标注软件对大规模藏语语料库进行切分和标注,最终实
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词级及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻面了词干到词干转移概率、词缀到词级转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为
语义角色研究在信息检索、机器翻译等计算语义学诸多领域有着广阔的应用空间和发展前景,而且对语言语义研究具有强大的解释力。本文充分观察和分析维吾尔语真实语料的基础上对现代维吾尔语框架语义知识库框架元素的语义角色进行描述和分类,为维吾尔语框架语义知识库句法语义识别和分析莫定了良好的基础。
本文叙述了维吾尔语源语言的框架语义网描述内容和组成,基于阿拉伯字符的维吾尔文如何在数据库中存储的必要的条件,如何定义数据库的数据类型,高级语盲与数据库如何交换维吾尔文信息等技术性领域做了探讨。根据维吾尔语框架语义网的描述内容、组成结构、实体之间的联系和框架语义网自身的特点,初步设计了维吾尔语框架网的数据库结构。论文提出的方法和思路对对维吾尔语框架语义网的研究领域有一定的指导和参考价值。
本文在传统搜索引擎基础上,结合网页自动分类技术,对基于分类的维、哈、柯多语种信息检索进行了研究。文中提出了一种改进的特征选择算法,并建立了一个维吾尔文网页分类系统,搜集了大量的维文语料进行分类实验。结果表明,使用改进的特征选择方法能够有效提高分类的准确度。最后,将网页分类技术运用到维、哈、柯文搜索引擎中,实现了具有自动分类功能的多语种信息检索系统。
基于文本的图片检索是图片检索技术中最常用的方法,其中,图片相关文本的提取是基于文本的图片检索技术的关键。图片相关文本提取技术的好坏直接影响查全率和查准率。本文以维吾尔文网页为例,首先分析基于文本的图片检索技术相关知识和图片相关文本提取方法,然后进一步研究启发式图片相关文本提取算法,提出启发式算法的不足及改进方案。对维吾尔文网页进行的实验结果表明,使用改进的图片相关文本提取方法能够有效的提高图片检索
文本摘要是对文本内容进行的概括,在文本检索中发挥着重要的作用。本文对文本摘要技术进行探讨,并以哈萨克文文本为例,对哈萨克文文本进行自动文本摘要技术进行研究。