中文人名搜索引擎关键技术研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:didierda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人名歧义是由于现实中同一姓名可能被多个实体人物共同使用而带来的一种身份不确定现象。中文人名搜索是互联网用户日常需求之一。随着Internet的发展,Web页面中因人物同名而带来阅读理解困难的问题越来突出,尤其给搜索引擎带来了不利影响。目前流行的通用搜索引擎对歧义人名仅通过关键字匹配、Web页面热度排序,输出长而无序的列表。真正有价值的信息仅为海量Web数据中的“冰山一角”,同时有“名人”网页淹没“非名人”网页的现象,给用户查找其所需要的人物信息带来了极大不便。本文针对中文人名搜索这一问题进行研究,主要工作如下:首先在对垂直搜索引擎技术的研究基础之上,结合中文人名搜索的特点,设计出中文人名搜索引擎体系结构。其中,Web人名主题爬虫采用基于模板和基于网页DOM树分析两种方法,分别从百度人物百科采集人物信息建立人物资料库和互联网采集包含歧义人名的Web页面,构建人物知识库和待消歧Web页面库。在Web人名消歧方面,本文给出了一种基于百度百科的无监督自动人名消歧方法。采用百度人物百科的海量数据作为基础人物资料库,通过解析其丰富的人物信息和语义关系,提炼出人物背景知识、人物特征语境、人物群体信息3大特征并进行线性融合,选取最大值所对应的实体人物作为歧义人名所指人物,作为Web页面索引建立依据。最后,本文建立实验原型并进行了Web中文人名消歧实验,取得了较好的消歧效果,验证了该方法的有效性。
其他文献
八十年代初,伴随着日本企业的崛起,人们注意到了企业文化的差异对企业的发展有着非常重要的影响,不同的企业文化使企业呈现出不同于其他企业的个性和特色,而且企业文化也成为推动
通过对系统的运行工况进行分析,对塔的液泛点、喷淋密度进行计算,确定了PDS栲胶脱硫装置出现硫膏严重夹带现象的主要原因是脱硫塔负荷过高,采取两塔并联等措施后,系统恢复稳定运
目前国内外智能手环厂商繁多,产品功能各异。智能手环通过内置的传感器获取人体生理数据,通过蓝牙或WIFI传输至移动终端APP中,存放于各自厂商数据平台或云计算端,数据存在数
通过组建中台队伍,支撑线上和线下销售的一体化、集约化、互联网化的订单管理,线上线下各类型业务按照自动化体系流转,对各渠道来源订单标准化,对订单信息进行有效的归集,支
本文以多协议平台的指纹签到系统为设计对象,通过对高精度光学传感器采集的原始数据利用商用指纹算法处理得到一段经过测试的识别信息,由UART接口和通讯协议的智能型模块将识
本文针对目前我军装备保障现状,基于北斗卫星通信及虚拟现实技术设计了一套武器装备远程维修保障系统,并对系统的组成、基本工作原理、关键技术等进行了介绍。该系统运用现代
机械臂在当今的医疗、工业等方面起着重要作用,为使机械臂更加适用、灵活、易于控制,基于ARM,通过依赖于ARM架构与ESP8266 WiFi模块以及各种模块,实现机械臂的动作以及对物件
用并流共沉淀方法制备了一系列CuO/ZnO/Al2O3催化剂前驱体及催化剂,用XRD、TG-DTG、TPR及微反活性评价等技术考察了沉淀温度对催化剂前驱体物相组成及焙烧后物相中CuO-ZnO间