【摘 要】
:
探讨一种通过相关性和传递性对数据集进行分组的有效途径.利用分块思想,并在充分考虑相似重复记录分布的多样性,以及相似重复具有传递性的基础上,设计基于Union-Find的传递闭包算法,以综合多趟计算的结果,实现在数据集上分组.算法能有效地在数据集中计算出满足需求的分组,从而获得较完整的相似重复记录子集.没有对直接影响分组质量、包含错误和数据变体的属性值进行详细分析.提出的方法有助于解决实体解析中部分
【机 构】
:
中国科学院文献情报中心,北京100190;中国科学院大学,北京100190
【出 处】
:
2015年全国情报学博士生学术论坛
论文部分内容阅读
探讨一种通过相关性和传递性对数据集进行分组的有效途径.利用分块思想,并在充分考虑相似重复记录分布的多样性,以及相似重复具有传递性的基础上,设计基于Union-Find的传递闭包算法,以综合多趟计算的结果,实现在数据集上分组.算法能有效地在数据集中计算出满足需求的分组,从而获得较完整的相似重复记录子集.没有对直接影响分组质量、包含错误和数据变体的属性值进行详细分析.提出的方法有助于解决实体解析中部分相似重复记录漏配的问题,且不受领域限制、扩展性较好.
其他文献
以多媒体技术、舆情理论、信息传播理论为基础,对多媒体技术对网络舆情传播的影响进行分析,深入解析传统网络舆情模式,并探讨大数据化多媒体网络舆情传播的主体、客体、媒体、本体、空间5个要素,在此基础上重构多媒体网络舆情传播模式.
优秀的创意管理使企业在市场中保持强有力的竞争力,而大数据时代带来了海量数据处理能力的需求,给企业的创意管理带来了全新的挑战和困难.本文首先分析了当下社会的大数据特点及传播特征,引出了创意管理的概念,根据其要素和产品的具体形成过程从而构建了一个创意管理的漏斗模型,进而分析了大数据时代,海量信息的产生将会使得这个模型的漏斗口不断加速扩大,影响着企业的产品、人才、以及战略的管理的转变;在人才管理方面,企
以情报学硕博士论文为主要数据来源,采用文献调查法和内容分析法梳理不同分类角度的情报问题域与情报方法集,归纳总结了适用于“情报问题解决”的情报方法集、适用于“情报对象分析”的情报方法集、适用“数据探索”方法的情报问题域、适用“情境判断”方法的情报问题域,并揭示情报研究领域中情报问题与研究方法的关系.
根据库恩范式观,厘清了情报服务的内容拓展与范式沿革历程,进而探讨融汇服务新范式形成的依据.阐述了融汇服务的内涵与核心要素及其对情报科学发展的意义.在此理论基础上,论述了融汇服务的原理与方法论,通过构建物联网融汇服务应用平台对研究进行应用分析.
从中国第三方移动支付交易规模迅速增长的现状出发,结合信息生态相关理论,构建第三方移动支付效能的评价指标体系,采用专家咨询法和层次分析法给出权重,并对国内4款第三方移动支付产品进行实证研究,并对实验结果进行了分析和讨论.
为了探讨我国图书馆·情报与文献学的发展情况,本文以全国哲学社会科学规划办公室网站发布的历年图书馆·情报与文献学社科基金申报指南和立项项目的相关信息为基础,采用主题词频数统计和比较分析法对1999-2014年的课题指南和立项项目主题词进行统计学分析.结果表明图书馆·情报与文献学国家社科基金的课题指南具有较强的导向性,与立项项目耦合度较高,反映了我国图书馆·情报与文献学发展的热点、重点和未来发展方向.
目的:了解学科信息门户使用情况,探索学科信息门户的发展方向和目的,网络学科信息资源组织,满足学科用户的需求.方法:采取网络调查法,抽样调查、重点调查及内容分析法,结果:发现超过一半调查学科信息门户无法访问,资金缺失、新运行模式社交网络或收费等因素,可访问门户采取新技术模式,用户参与或广告收入等可持续运行方式,学科信息门户随着环境、资源和用户而不断发展.
本文概述了互联网金融的发展沿革和当前现状,包括在国外的理论和实践的发展等.从新闻分析、国内和国际热点三个维度聚焦信息安全性框架、安全性评价和信息保障体系的进展.以此为基础,整理归纳了当前在互联网金融领域的理论原理、理论框架模型等,总结在信息安全性评价领域的研究热点和难点,并明确目前研究中的盲点和不足,提出下一步的研究方向.
从学术文献中抽取其涉及的理论可视为一类命名实体识别(NER)问题.现有的命名实体抽取方法存在训练语料依赖、方法难以迁移等问题.本研究总结了现有的命名实体识别的常用方法,分析命名实体抽取的过程和评判依据,对识别过程中常用的特征进行了归纳.本研究提出了一个基于语义泛化思想的命名实体识别模型.实验选取了词性、知网义原等外部知识,采用CRF(条件随机场)作为语言模型.实验表明,识别准确率最高达到95.38
文章阐述了企业员工运用内部虚拟社区进行知识共享的现象,分析了影响知识共享效果的社区环境因素、员工认知因素和共享行为因素.其中,社区环境因素包括技术环境“硬环境”和文化环境“软环境”;员工认知因素包括自我效能感和结果预期;共享行为因素包括知识编码化和知识个人化.通过梳理三类主要影响因素的内在特征和影响机理,尝试构建了企业内部虚拟社区知识共享影响因素模型.最后,得出三点启示,以期促进企业内部虚拟社区中