【摘 要】
:
实体解析用于判断两个数据记录是否描述的是现实世界中的同一实体对象。它对于数据集成、数据清洗、数据去重和处理优化都十分重要。实体解析所处理的对象不仅局限于数据记录
论文部分内容阅读
实体解析用于判断两个数据记录是否描述的是现实世界中的同一实体对象。它对于数据集成、数据清洗、数据去重和处理优化都十分重要。实体解析所处理的对象不仅局限于数据记录,还包括在文本文件比对、文档查重、人脸图像识别、指纹识别等一些具有特定解析需求的实际应用中。从参与实体解析的主体角度来看,可以将实体解析的方法分为两大类,即基于机器算法的实体解析和基于人工的实体解析。纯粹的机器算法解析虽然可以获得较高的效率,但是解析的准确率却难以保证;同样,单纯的众包或人工解析虽然可以获得很好的准确率,但是解析的效率却远不及机器解析。本文提出一种结合机器算法和人类智能的实体解析方法,即基于人机协作的实体解析。该方法首先采用基于Hadoop开源项目中的MapReduce并行计算框架,运行基于相似性计算或机器学习算法,排除不可能匹配的记录对,减少人类智能任务的数量,然后由人工进行确定性标注。论文的主要工作包括:1)对实体解析方法和框架进行了综述;2)提出了基于众包与机器处理相结合的实体解析方法;3)提出了基于MapReduce的并行实体解析框架;4)将方法和框架应用于某医院患者主索引构建平台。实验结果表明,人机协作的实体解析方法充分发挥了机器和人工处理各自的优势,为患者实体解析带来高效率和高精度。
其他文献
本文就我国废弃物的污染现状进行了阐述,就我国固体废弃物的处理现状进行分析,并且对我国固体废弃物的常规处理方式作了简单介绍。
董事的义务是公司治理中重要的一环,关于董事对公司的义务问题,我国学者有较为详尽的研究,但是至于董事与股东之间的关系性质、董事对股东是否应当负有义务、何种情形下负有
纵观世界各国的经济发展,中小企业都有着举足轻重的意义,并且,对于中小企业的融资难的问题也同样存在于各个国家的经济发展之中,对中小企业的发展起到了严重的阻碍作用。即使
2013年,中国水泥的总产量己达24.1亿吨,熟料的总产量超过13.6亿吨,均占世界产量的50%以上。水泥的原材料为石灰石和粘土,均为不可再生资源,日益紧缺;水泥生产过程中高能耗并大
<正>客户身份识别指金融机构在与客户建立业务关系或与其进行交易时,应当根据法定的有效身份证件或其他身份证明文件,确认客户的真实身份,同时了解客户的职业情况或经营背景
多媒体技术在高中语文教学中的应用提高了课堂效果,培养了学生的语文素养,受到了同学们的欢迎。但是教学面对的是充满生命力的学生,如何利用好多媒体为教学为学生服务值得探
网上银行的发展是未来银行业发展的重要部分。我国网上银行的发展有近十年的历史,但由于我国银行信息化基础薄弱,社会经济环境、银行业和网上银行自身缺陷以及立法、监管方面
随着经济全球化的迅速发展以及日益激烈的市场化竞争,企业能否实现可持续的发展已经越来越受到各界人士的关注。而在我国国民经济的发展中占据着重要地位的交通运输业,自从改革
目前,我国证券公司主要存在公司治理结构失衡、内控制度不规范、不良资产比重过大、资本规模偏小、业务单一、业务结构趋同、人才缺乏等问题。根据我国证券公司风险状况,宏观
本文对2001年到2003年全球范围内56起金额超过20亿美元的大型银行并购案例进行了实证分析,研究结果表明银行在并购后五年内的业绩有明显改善,这主要是并购后净息差的增加带来