【摘 要】
:
互联网技术发展迅猛,带给人们极大便利的同时,也给人们带来了不便和挑战,由于数据量的迅猛上涨,人们发现获取自己想要的信息的难度在变大。知识图谱可以将世间万物的信息和关系进行表示,由于这些海量数据之间存在着关联,可以形成高质量的、关联明显的、信息直观的知识。这种图谱形式不仅便于人们的理解,同时更加方便了计算机的理解和处理,从而可以方便人们获取信息,知识图谱也就成为了众多学者关注的热点。然而海量数据中存
论文部分内容阅读
互联网技术发展迅猛,带给人们极大便利的同时,也给人们带来了不便和挑战,由于数据量的迅猛上涨,人们发现获取自己想要的信息的难度在变大。知识图谱可以将世间万物的信息和关系进行表示,由于这些海量数据之间存在着关联,可以形成高质量的、关联明显的、信息直观的知识。这种图谱形式不仅便于人们的理解,同时更加方便了计算机的理解和处理,从而可以方便人们获取信息,知识图谱也就成为了众多学者关注的热点。然而海量数据中存在着大量异构资源,如何有效处理异构资源将其存储并应用于知识图谱系统中是一个巨大的挑战。有鉴于此,设计并实现了基于异构资源的知识图谱系统。首先从数据存储、图谱显示和数据分析等角度来说明知识图谱系统的设计流程,并简单介绍了在知识图谱系统实现中的数据模式。然后,从存储模块、显示模块和分析模块三个方面分别说明了功能流程。利用数据模式的迁移设计和自定义设计实现了存储模块,以及定义了存储模块的相关操作。迁移设计读取不同类型文件,自定义设计是用户定义模型节点,最后通过知识抽取可以将海量文本中的信息抽取转换成知识,并且结合这两种方式进行存储,这样也就实现了异构复杂类型数据的处理。系统利用BS嵌入CS系统的思想实现了知识图谱的显示模块,同时在网页中也可以执行知识图谱系统的数据存储和图谱显示两个功能。实验在MSRA数据集语料库中进行训练并测试,实验结果表明设计的知识图谱系统在抽取结果的精确率和召回率上有了一定的提高,其中F1的值基本上是在88%左右,并且可以适用于中文文本领域。
其他文献
情感分析是自然语言处理的一个重要领域,传统的情感分析是不考虑文本之间的链接关系的,然而现实世界中我们所分析的文本都是存在一定的链接关系的,例如在社交网络的场景中,我们就能够使用用户和用户的关注关系来获得文本之间的联系,然而一般的在社交网络中进行情感分析的方法却很少利用这些信息,或者是使用用户相似性去衡量文本的相似度。但是这些方法无法区分同一个用户下的不同文本的关注点。针对社交网络中情感分析的问题,
在中考语文能力的评测方式中,作文是最有代表性的测评能力的方式。在对语言能力的考试中,作文更是不可缺少的题型。相比于其他题型,作文占的分值之大使得在它的批改工作上,公平性和客观性必不可少。然而,作文篇幅长、识字困难、教师情感波动等因素导致语文作文的批改工作的难度大大提升。因此,有必要基于现有的人工智能技术和自然语言处理技术,通过对作文人工评卷过程的分析,设计并实现一套有实用价值的中考语文作文评分建议
由于云计算技术的快速发展,信息产业的商业模式也发生了巨大的改变,数据库外包逐渐成为数据管理的新范式。将数据外包到第三方云服务提供商,不仅能够在很大程度上降低企业和个人的成本和计算负担,而且可以提高资源的使用率。然而,第三方云服务提供商并不完全可信,数据在外包存储、管理和对外提供服务的过程中面临泄露、篡改的风险,这使得数据查询结果不可靠。数据库外包所带来的安全和隐私方面的问题已经成为外包数据库更广泛
随着科学技术的高速发展,学术信息爆炸式增长,相当多的学术网站不断涌现。这类学术网站主要关注学者的研究领域、学者间的合作关系等,为人员合作和科研合作奠定基础。由于学术型网站的内容主要是学术论文,如何从论文中抽取属性并进行推理分析是需要解决的关键问题。根据异构学术网络的特点,基于机器学习构建了合作关系预测模型。整个模型包括以下部分:首先,针对异构学术网络丰富的语义信息特点,设计了基于元路径的结构特征抽
移动互联网、物联网、云计算等技术的发展和运用,推动了线上医疗行业的发展。云环境下医疗大数据不仅提高了医疗咨询的精准度,而且打破了地域的限制,给患者就诊带来了便捷。一方面,由于医疗大数据云端存储,云服务器的安全无法保障,另一方面,医疗数据具有很大的研究价值,数据发布必不可少,系统中包含大量患者隐私信息,因此研究如何保护医疗数据保密性以及隐私性有重要的意义。通过现有方案的研究与分析,提出了一种基于云环
随着大数据的盛行以及分布式计算技术的逐渐成熟,运用分布式技术来进行数据的高效分析已成为了各企业的研究热点。近年来,随着内存计算的不断发展,Spark被广泛应用于大数据处理领域。Spark中的任务调度器决定了任务的数据分配以及任务执行路线,能够直接影响整个集群的执行效率。因此,开展对Spark任务调度器的优化研究能够提高Spark集群的性能。分析了目前Spark任务调度器未充分考虑洗牌(Shuffl
直播频道推荐方法是为满足直播观众的个性化观看需求、直播频道或直播平台的利益需求,然而当前直播频道推荐方法仅根据观看这种行为而针对观众的偏好进行分析,忽视了一些不可避免的噪音数据对推荐结果的影响,并且面对庞大且稀疏的真实数据不能保证较快的训练速度以及较优的推荐结果。因此,如何挖掘观众的潜在偏好表达,设计一个结果精度和实用性更高的直播频道推荐方法具有理论和实际意义。为解决现有的直播频道推荐方法对观众偏
随着我国高速公路规模逐年递增,路面养护投资金额也越来越大,传统的养护模式已经无法满足高速公路养护的快速需求,因此需要一种高速公路智能养护系统来帮助养护工作者提高工作效率,使得养护工作能够更加科学合理。由于我国高速公路信息化建设的起步较欧美国家晚很多,虽然发展至今已经有了将近30年的历史,也有了比较大的成就,但还有一些问题没有解决,主要体现在以下几个方面:(1)检测数据的处理和分析能力;(2)养护决
目前,我国的政府职能正朝着服务型的方向转变,国家提出“互联网+政务服务”的模式,意在提高政府的服务能力,让人民群众少跑腿、好办事。武汉市推出的“电子证照卡包”建设方案就是“互联网+政务服务”改革下的产物。该方案集成所有相关的“证、照、卡”,为个人或企业提供可信赖的线上认证服务。电子证照卡包建设方案涉及的政府部门众多,现阶段还存在政府部门之间数据信息共享不充分、数据安全管控能力较弱的问题。针对以上问
Uber和滴滴等共享出行平台在当今的公共出行中扮演着越来越重要的位置,这不仅源于它们庞大的市场份额和服务量更在于它们提供的服务具有层次性和多样性能适应大众的需求。时至今日滴滴APP内提供的服务类型已有十多项,在用户开启APP时平台会首页推荐并展示其中一项服务的服务页面,最初的首页推荐策略是用户“最近一次使用的服务”,随着平台产品增长和用户使用习惯场景化,该方案已无法适应当前需求。据统计,滴滴平台内