【摘 要】
:
随着互联网技术的飞速进步,全球信息时代得以快速发展,各种新闻数据急剧增加,其中隐含着大量信息和资源;同时很多发展中国家的网络用户快速增长,使得互联网上各种语言的文本数据持续增加。在这种全球化形式下,仅仅获取本国的新闻信息已远远不能满足一个国家或一个大型企业机构在国际地位的需要。跨语言文本的信息组织是一个不可忽视的问题,而单语文本聚类方法几乎不能满足实际需求,因而双语或者跨语言的文本聚类成为了人们研
论文部分内容阅读
随着互联网技术的飞速进步,全球信息时代得以快速发展,各种新闻数据急剧增加,其中隐含着大量信息和资源;同时很多发展中国家的网络用户快速增长,使得互联网上各种语言的文本数据持续增加。在这种全球化形式下,仅仅获取本国的新闻信息已远远不能满足一个国家或一个大型企业机构在国际地位的需要。跨语言文本的信息组织是一个不可忽视的问题,而单语文本聚类方法几乎不能满足实际需求,因而双语或者跨语言的文本聚类成为了人们研究的热点。目前对于双语混合文本聚类研究有很多是基于翻译系统或者词典进行,这不能快速而有效地从双语混合文本中提取到关键信息。本文通过对传统潜在语义分析和主题生成模型的研究,将其理论应用于双语文本聚类中,提出了潜在语义对偶空间和双语主题生成模型,这两种方法模型不需要通过翻译工具或词典便可进行双语混合文本聚类。其中,本文根据文本语义的语言无关性,基于典型相关分析CCA从平行语料中提取了双语文档的潜在语义对,形成潜在语义对偶空间。对待聚类的双语文本文档通过潜在语义对偶空间进行映射,得到具有相同概念的潜在语义,进而通过聚类算法进行双语文本聚类分析。同时,本文利用传统的主题生成模型,分析了相同主题可由不同语言描述的特点,进而提出一种双语主题生成模型。通过双语主题模型训练平行语料得到文档的主题分布和每个主题中所有词的分布,然后对待聚类的双语文本通过吉布斯采样估计得到双语混合文本的主题概率分布,基于此可利用双语文本在共同主题的概率分布下进行双语文本聚类实验。另外,本文基于融合模型的思想,受Bagging和Boosting算法启发,提出两种模型融合的方式,包括模型拼接和模型结合。这样能够更加充分地利用文本的潜在语义和主题信息,从而更好地实现双语文档聚类。最终,在双语文本聚类实验中,本文提出的方法得到了较好的效果。其中模型融合中模型拼接方法在RT和HK两个数据集上F1值分别达到了0.546和0.478,取得了较好的聚类质量。由此可见本文中方法在聚类双语混合文本研究中能够充分利用文本中语义和主题信息,得到较好的聚类效果。模型拼接的思想虽然简单,但增加了计算复杂度,因此希望能够通过更深入的研究,改善相关问题,得到更加优秀的结果。
其他文献
网络对讲机因其价格低、通话质量优和通信距离长等优点,被广泛地应用到工业、安保和消防等领域。随着网络对讲用户数剧增,原有网络对讲交换平台突显出了两大问题:面对大量对讲交换任务并发时,平台交互速度变慢、稳定性变差;存储在平台上的对讲语音数据增多时,文件检索效率低、安全性差。Hadoop分布式文件系统(Hadoop Distribute File System,HDFS)进行大数据处理时具有较高的安全性
基于属性加密实现用户细粒度访问控制,然而解密计算量大,密文完整性无法验证,不适用于现实场景中使用。可验证外包属性加密能够减少解密计算量,同时实现消息完整性验证,保证系统安全。因此,构建安全和高效的可验证外包属性加密方案成为目前研究的热点。论文针对具有不同功能的可验证外包属性加密方案进行深入研究,具体包括:(1)针对可验证外包属性加密方案中的属性撤销问题,本文在标准模型下提出一种安全的支持属性撤销可
目的:本临床研究通过利用导师长期临床经验用方干预脾虚痰浊型的血脂异常,观察其中西医临床疗效和安全性以及对肠道菌群、脂联素、瘦素的影响。材料与方法:本临床试验基于课
随着移动设备的普及和移动应用用户数量的爆发式增长,移动智能终端安全面临着巨大挑战。机器学习作为人工智能领域的重要方法,近年来在通过分析网络行为进行移动恶意应用检测的研究中得到了广泛应用。然而,由于网络流量天然存在的类别分布不平衡特性和持续到达特性,给机器学习模型训练带来了诸多困难与挑战。首先,在真实环境中,正常行为的网络流量数量要远远多于恶意行为的网络流量数量,这种类别不均匀分布的数据集使得传统的
目的:研究结肠癌转移相关基因1(metastasis associated in colon cancer1,MACC1)对人鼻咽癌细胞恶性生物学行为的影响,观察人鼻咽癌细胞过表达MACC1对细胞的增殖、迁移及侵袭的影响。方法:1.采用Western blot技术检测鼻咽癌5-8F、HNE-1、CNE-1、CNE-2细胞株中MACC1的蛋白表达水平。2.通过慢病毒转染技术建立一组过表达MACC1的
近年来,机器学习技术与传统的通信技术有了更多的交集。现代的通信系统在运行过程中会产生大量的数据,将其与先进的机器学习技术结合能够显著提升网络的性能并优化通信组件的设计和管理。在这一领域,最近提出了一种利用端到端训练对通信系统组件进行联合优化的方法。本文利用这一思想,对单载波频域均衡(SC-FDE)系统进行信道估计与信号检测。本文主要工作如下:(1)首先,针对单天线SC-FDE系统,利用深度学习网络
目的1.描述妇科癌症患者和配偶的心理资源(包括正念、心理灵活性)与负性情绪(包括抑郁、焦虑情绪)状况;2.探索妇科癌症患者和配偶正念、心理灵活性对抑郁情绪、焦虑情绪的二
卷积神经网络(Convolutional Neural Networks,CNN)近年来在图像分类、目标检测、视频语义分析等领域取得了突破性的进展,其强大的特征学习与分类能力得到广泛的关注。由于卷
近年来,世界发生着翻天覆地的变化,科技人才和科研成果创新成为了推动着社会进步、百姓富裕、国家繁荣昌盛的最重要力量,也是国家在未来国际关系中决胜的关键。过去对于科研成果的评价体系中,主要是以情报人员、研究人员和专家学者为主导进行评价总结,使得评价结果不够准确和客观,专家人工筛选所有资源和研究成果的工作量非常巨大,成本很高。通过梳理近几年来对于科学论文重要性评估的评判标准,发现大部分的分析方法是利用科
分类是机器学习和模式识别领域的经典问题之一。对有监督分类任务,分类器从训练样本中学习知识,并调整自己的行为来实现更好的分类表现。许多经典的方法被提出用于解决分类问题,例如支持向量机、神经网络、贝叶斯分类器、决策树等。在这些方法中,神经网络凭借其易于构建和优异的近似能力,被广泛的应用于分类任务中。神经网络的分类过程可以从几何角度被解释。在分类过程中,神经网络将待分类样本从原始的数据空间映射到一个新的