基于潜在语义对偶空间的跨语言文本分类研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:i_love_snj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
据统计,互联网上在线发布的网页早已达到亿数量级,并以每天百万页的速度在增长。用户在需要克服语言障碍的同时,如何准确地在Internet这样一个开放式的数据库中找到相关信息,变得越来越困难。因此,利用计算机对大量的多语言文本信息进行自动分类和检索已经变得尤为的重要。在大规模文本处理中,分类主要用于文本的组织,尤其对于海量的文本信息资源。利用分类将相关的文本组织在一起,便于文本处理和发现新颖有效的知识模式。现如今网络上各种语言的网页资源都非常丰富,跨语言的文本分类的出现使得人们可以更好的共享因特网上的多语言的信息资源。随着网络资源多语化趋势的加快,跨语言文本分类技术得到不断的发展。目前,跨语言研究主要有基于文献翻译、基于双语辞典和基于语料库等方法[1]。文献翻译的方法所需处理时间长,计算量较大,加重了计算负荷和时间花销。另外,机器翻译的水平仍然较低,正确率还有待于提高,不能令人满意。目前大多数研究都是基于双语辞典和译词选择方法[2]。而基于语料库的方法是从大规模语料库入手,从中抽取需要的信息,自动构建与应用相关的翻译技术[3],这样就能解决翻译歧义、辞典覆盖度不够的问题。所以基于语料库的潜在语义标引方法引入到了跨语言分类中[6]。结果有较大提高,但需构造跨语言的词间相似度矩阵,算法的空间和时间复杂度较大。本文采用基于语料库的方法,应用统计学相关理论[7][8],研究基于潜在语义对偶空间的跨语言文本分类模型。运用偏最小二乘方法对文档的特征矩阵提取潜在语义对,由此构建语义层面的对偶空间,将有类标信息的语料库投影到此空间,以训练分类器。该方法避免了由翻译带来的歧义性等问题,而利用同一种概念来表达多语言的文档,达到消除语言障碍的目的。实验中通过改变训练集样本大小及语言构成来验证模型的分类性能。实验结果表明,基于潜在语义对偶空间的跨语言文本分类具有良好的稳定性和准确度。
其他文献
波达方向(Direction Of Arrival,DOA)估计技术起初由空域滤波和时域谱估计发展而来,其参数估计性能优越,应用前景宽广,例如雷达、声纳、电子对抗和无线定位等技术,目前已成为
粒子群优化算法(Particle Swarm Optimization, PSO)是人工生命与群体智能理论的结合下提出的一种启发式算法,最早是由Eberhart和Kennedy于九十年代中期提出的,是在鸟群、鱼群和
考试是教学过程中的重要环节,在信息化社会中,建立计算机管理系统来管理高校的考试题库成为各高校考试管理走向现代化、规范化、科学化的必然途径。为深化教学改革,提高教学
计算机自动伴奏是计算机自动作曲研究的一个分支,是计算机技术和音乐理论相互交融的产物。目前计算机自动伴奏研究虽然取得了一定的成果,但这些研究基本上是建立在西洋大小调
笔迹既包含着书写者先天的生理特征,又受后天学习的影响,能在一定程度上反映书写者的书写习惯和生物特征。从笔迹中提取的信息可以用来判断书写者的性别、年龄和使用右手或者
当前随着计算机和互联网技术的普及,人们已经进入了信息呈指数级爆炸式增长的信息时代,每个人在实际生活中每时每刻都在不断地与信息打交道:接收信息、加工信息和利用信息。
自微芯片之父Roland Moreno于1974年3月申请了智能卡的专利以来,智能卡现已广泛应用到医疗、交通、金融、电信、社保、石油等各个行业中。智能卡的出现与发展给人类的生活方
P2P技术的出现推动着整个Internet网络的计算模式由集中式向分布式发展,传统的内容分发模式演变成了P2P与CDN的混合模式。实现大规模和大容量的内容分发已经不再是难事。BitT
无线传感器网络(wireless sensor network,WSN)的主要功能是对监测区域的事件对象进行有效的监测。以数据为中心的网络更关注兴趣事件发生,而非某个节点的监测值。以数据为中
随着高校招生规模的不断扩大,招生后期的数据处理与迎新工作变得更加繁重,各高校普遍希望将信息技术引入到迎新工作中,加强参加迎新的各个部处间的信息流通和工作配合,使迎接新生