跨语言信息检索中的双语主题相关模型

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:fano
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何通过双语平行语料库提取语言之间的语义对信息,对改善跨语言信息检索的性能有着十分重要的意义.双语平行文档拥有相同的主题,这些双语主题在具体模型上可体现为语义相关.本文首先将双语平行文档看作同一语义内容的两种语言表示,从双语平行语料库构造每种语言的潜在语义空间,从而提出一种新的双语主题模型,即双语偏最小二乘主题相关模型.新模型克服了跨语言潜在语义索引模型没有充分考虑双语语义联系的不足.在中英双语新闻语料集上实验结果显示,新模型的文档配对搜索和伪查询跨语言检索性能明显优于跨语言潜在语义索引模型;在使用Google翻译得到的TREC-9双语平行语料库上,新模型也获得了较好的检索性能. How to extract semantic information between languages ​​through bilingual parallel corpora is very important to improve the performance of cross-language information retrieval.Bilingual parallel documents have the same topics, which can be embodied as semantic correlations in specific models. First of all, bilingual parallel documents are regarded as two linguistic representations of the same semantic content, and a potential bilingual semantic space for each language is constructed from a bilingual parallel corpus, so as to propose a new bilingual theme model, ie, a bilingual partial least squares theme correlation model. The model overcomes the shortcomings of the cross-language latent semantic index model without fully considering bilingual semantic relations.Experimental results on the Chinese-English bilingual news corpus show that the performance of document paired search and pseudo-query cross-language retrieval in the new model is significantly better than cross-language latent semantic Index model. The new model also achieved better retrieval performance on the TREC-9 bilingual corpus using Google Translate.
其他文献
现实世界中新兴应用的快速发展导致各类数据的急剧增加,传统的数据挖掘模式已无法满足海量数据的需要,因此,本文提出一种基于动态云模型的树数据挖掘算法,以解决大规模树数据
在互联网环境中如何对分布、自治的服务进行有序化组织是一个挑战性问题.传统服务计算环境对服务的关系缺乏分析和有效管理,用户在构建应用时难以发现满足自己需求的服务.本
本文梳理了浪漫主义作为文学批评的术语,从二十世纪初引入中国以来,在中国古典文学和近现代文学研究中的流布,分析了浪漫主义在中国文学批评中误用的表现和原因,指明政治原因
支持替代的事务模型提供多条执行路径,提高了事务成功率.针对支持替代的事务模型,提出一种适于周期性事务的二重调度策略PT-DSS.外部调度中,PT-DSS采用固定优先级的可抢占调
复合事件探测是RFID事件处理的核心,本文对其中的非自发事件探测技术进行了深入研究,提出一种后继事件驱动的非自发事件探测方法 SD-EventD:SD-EventD将查询树中的非自发操作上提,与其父节点操作进行语义融合,直至最近的双目运算父节点;仅为双目运算符设置单队列,并基于单队列的后继事件驱动进行双目运算的语义探测;针对融合后的双目运算,给出了基于操作符语义的语义探测方法,即出入队规则.本文详
接到请求时,如何快速准确地查找满足用户需求的服务是服务发现的目的所在.现有的服务发现方法大都通过对服务功能属性的匹配计算来进行服务查找,对服务的过程模型并没有进行
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于GoogleGFS和MapReduce的开源云平台.利用Nutch和Ha—doop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进
已有研究表明,在SAT求解器中引入重启可以极大地提高求解性能,并已出现了许多不同重启策略.目前还缺少全面的对比分析研究.为了避免重启策略选择的随意性,同时启发设计更好的
元代著名书法家鲜于枢,与书坛巨擘赵孟頫齐声并置,二人关系甚密,可谓至交.在赵孟頫眼中鲜于枢为人豪爽脱俗、其书妙入神品、他的诗也足以和大诗人鲍照、谢灵运相媲美.
延迟容忍传感器网络具有间歇连通的特性,难以维护一条端到端的路径,给DTMSN中的数据收集带来了困难.由于网络的连通是机会性的,因此链路成为稀缺的资源.已有的工作大部分集中在如