基于不同文本表示与聚类策略的双语文本聚类研究

来源 :2015年全国情报学博士生学术论坛 | 被引量 : 0次 | 上传用户:ivan888111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文通过采取不同策略来比较双语文本聚类任务中各个策略的聚类效果.作为实验数据,平行语料是一种两种不同语言互译的平行文本语料集.考虑到平行语料的这种特性,本文利用翻译技术对文本进行了翻译与排列的处理.当进行文本表示时,文章利用了向量空间以及主题分布两种模式,文本的相似度则分别利用了余弦距离以及JS距离.和一次聚类策略相比较,实施的其中一种聚类策略进行了二次聚类以求达到更好的效果.实验结果显示:1)聚类策略中,聚类使用的数据为将平行语料中英文文本翻译为中文文本,并与对应的英文文本结合而进行的文本聚类结果最优;2)当表示文本时,利用主题分布来进行表示的策略比向量空间模型表示的策略聚类的结果差;3)在本次实验中,二次聚类并没有很好的改进聚类结果.
其他文献
优秀的创意管理使企业在市场中保持强有力的竞争力,而大数据时代带来了海量数据处理能力的需求,给企业的创意管理带来了全新的挑战和困难.本文首先分析了当下社会的大数据特点及传播特征,引出了创意管理的概念,根据其要素和产品的具体形成过程从而构建了一个创意管理的漏斗模型,进而分析了大数据时代,海量信息的产生将会使得这个模型的漏斗口不断加速扩大,影响着企业的产品、人才、以及战略的管理的转变;在人才管理方面,企
以情报学硕博士论文为主要数据来源,采用文献调查法和内容分析法梳理不同分类角度的情报问题域与情报方法集,归纳总结了适用于“情报问题解决”的情报方法集、适用于“情报对象分析”的情报方法集、适用“数据探索”方法的情报问题域、适用“情境判断”方法的情报问题域,并揭示情报研究领域中情报问题与研究方法的关系.
根据库恩范式观,厘清了情报服务的内容拓展与范式沿革历程,进而探讨融汇服务新范式形成的依据.阐述了融汇服务的内涵与核心要素及其对情报科学发展的意义.在此理论基础上,论述了融汇服务的原理与方法论,通过构建物联网融汇服务应用平台对研究进行应用分析.
从中国第三方移动支付交易规模迅速增长的现状出发,结合信息生态相关理论,构建第三方移动支付效能的评价指标体系,采用专家咨询法和层次分析法给出权重,并对国内4款第三方移动支付产品进行实证研究,并对实验结果进行了分析和讨论.
为了探讨我国图书馆·情报与文献学的发展情况,本文以全国哲学社会科学规划办公室网站发布的历年图书馆·情报与文献学社科基金申报指南和立项项目的相关信息为基础,采用主题词频数统计和比较分析法对1999-2014年的课题指南和立项项目主题词进行统计学分析.结果表明图书馆·情报与文献学国家社科基金的课题指南具有较强的导向性,与立项项目耦合度较高,反映了我国图书馆·情报与文献学发展的热点、重点和未来发展方向.
目的:了解学科信息门户使用情况,探索学科信息门户的发展方向和目的,网络学科信息资源组织,满足学科用户的需求.方法:采取网络调查法,抽样调查、重点调查及内容分析法,结果:发现超过一半调查学科信息门户无法访问,资金缺失、新运行模式社交网络或收费等因素,可访问门户采取新技术模式,用户参与或广告收入等可持续运行方式,学科信息门户随着环境、资源和用户而不断发展.
本文概述了互联网金融的发展沿革和当前现状,包括在国外的理论和实践的发展等.从新闻分析、国内和国际热点三个维度聚焦信息安全性框架、安全性评价和信息保障体系的进展.以此为基础,整理归纳了当前在互联网金融领域的理论原理、理论框架模型等,总结在信息安全性评价领域的研究热点和难点,并明确目前研究中的盲点和不足,提出下一步的研究方向.
从学术文献中抽取其涉及的理论可视为一类命名实体识别(NER)问题.现有的命名实体抽取方法存在训练语料依赖、方法难以迁移等问题.本研究总结了现有的命名实体识别的常用方法,分析命名实体抽取的过程和评判依据,对识别过程中常用的特征进行了归纳.本研究提出了一个基于语义泛化思想的命名实体识别模型.实验选取了词性、知网义原等外部知识,采用CRF(条件随机场)作为语言模型.实验表明,识别准确率最高达到95.38
文章阐述了企业员工运用内部虚拟社区进行知识共享的现象,分析了影响知识共享效果的社区环境因素、员工认知因素和共享行为因素.其中,社区环境因素包括技术环境“硬环境”和文化环境“软环境”;员工认知因素包括自我效能感和结果预期;共享行为因素包括知识编码化和知识个人化.通过梳理三类主要影响因素的内在特征和影响机理,尝试构建了企业内部虚拟社区知识共享影响因素模型.最后,得出三点启示,以期促进企业内部虚拟社区中
探讨一种通过相关性和传递性对数据集进行分组的有效途径.利用分块思想,并在充分考虑相似重复记录分布的多样性,以及相似重复具有传递性的基础上,设计基于Union-Find的传递闭包算法,以综合多趟计算的结果,实现在数据集上分组.算法能有效地在数据集中计算出满足需求的分组,从而获得较完整的相似重复记录子集.没有对直接影响分组质量、包含错误和数据变体的属性值进行详细分析.提出的方法有助于解决实体解析中部分