论文部分内容阅读
摘 要: 为利用人脸识别快速了解学术会议参会人员、来访学者的信息,以及他们与本校学者的联系,构建相关领域知识图谱尤为重要,本文首先介绍系统构建的流程、功能模块,其次介绍了知识图谱的技术路线,最后对该系统提出改进和展望。
关键词: 知识图谱;图数据库;人脸识别;学者信息
1.背景介绍
随着学校办学水平的提升,越来越多的专家学者莅临我校进行学术交流,为每位来访学者建立数据库,记录其交流的内容和与本校老师合著的信息,对未来进一步的科研教学合作有着至关重要的意义。传统的基于关键词的搜索由于其固有的重名低效等缺点将不适用于复杂的来访学者信息搜索系统,所以构建一套新的搜索系统是很有必要的,基于此本文提出了一种基于人脸识别的来访学者信息知识图谱构建方法。
2.系统构建流程
本系统利用图数据库对学者信息进行存储,使用人脸识别技术代替人名关键词进行检索,系统在安卓平台的智能手机上运行。用户通过客户端拍照,将目标照片导入人脸库系统,然后目标照片在系统中完成识别和检索等操作,将目标照片所对应的ID发送请求到服务器端,服务器端收到请求后,连接图数据库,返回实体属性关系等信息。
3.知识图谱
3.1 信息抽取
3.1.1信息来源
现有的知识图谱主要从自顶向下和自底向上的两种构建方式:
3.1.2 信息抽取
数据获取后,还需要从这些数据中抽取出实体、属性、关系等结构化信息建立图数据库。
1)实体抽取
早期是人工编写抽取规则,辅助利用机器学习方法进行实体抽取,但这种方法耗费大量人力,可扩展性差,算法性能依赖于训练样本的规模,具有明显的局限性。面向开放域的实体抽取和分类技术能够较好地解决这一问题,即对于任意给定的实体,采用统计机器学习的方法,从目标数据集(通常是网页等文本数据)中抽取出与之具有相似上下文特征的实体,从而实现实体的分类和聚类。
2)关系抽取
早期通过人工构造语法和语义规则,采用模式匹配的方法来识别实体间的关系。但这种方法工作量大,可扩展性差,因此采用面向开放域的关系抽取技术,直接利用语义中的关键词汇对实体关系进行建模,不需要预先指定实体关系的分类,比如面向开放域的信息抽取方法框架(Open Information Extraction, OIE)。现在OIE系统存在的主要问题是抽取的准确率以及系统对隐含实体关系的识别能力。
3)属性抽取
基于规则和启发式算法的属性抽取算法(百科类网站提供的半结构化数据是当前实体属性抽取研究的主要数据来源),如本体知识库(YAGO),其抽取准确率高达95%。
4)知识存储
当下的许多数据库采用关系型数据库对其进行存储,而在实际数据处理时所使用的数据却是图结构数据,Neo4j采用图结构的存储方式,在实际的数据处理过程中也是調用的图结构原始数据。且具有性能高、存储读写速度快、稳定性好等优点;在早期的文档、技术博客等图形数据库中运用较多,所以本文采用Neo4j来对图谱数据进行存储。
4.人脸识别的实现
通过直接调用已有的人脸检测/识别的免费开源API,如EYEKEY、虹软ArcFace、SeetaFace等。
参考文献
[1]刘峤,李杨,段宏,刘瑶,秦志光. 知识图谱构建技术综述[J]. 计算机研究与发展,2016,53(03):582-600.
[2]肖明,邱小花,黄界,李国俊,冯召辉. 知识图谱工具比较研究[J]. 图书馆杂志,2013,32(03):61-69.
[3]顾昭艺. 基于人脸识别的社交关系检索系统的设计与实现[D].北京邮电大学,2013.
关键词: 知识图谱;图数据库;人脸识别;学者信息
1.背景介绍
随着学校办学水平的提升,越来越多的专家学者莅临我校进行学术交流,为每位来访学者建立数据库,记录其交流的内容和与本校老师合著的信息,对未来进一步的科研教学合作有着至关重要的意义。传统的基于关键词的搜索由于其固有的重名低效等缺点将不适用于复杂的来访学者信息搜索系统,所以构建一套新的搜索系统是很有必要的,基于此本文提出了一种基于人脸识别的来访学者信息知识图谱构建方法。
2.系统构建流程
本系统利用图数据库对学者信息进行存储,使用人脸识别技术代替人名关键词进行检索,系统在安卓平台的智能手机上运行。用户通过客户端拍照,将目标照片导入人脸库系统,然后目标照片在系统中完成识别和检索等操作,将目标照片所对应的ID发送请求到服务器端,服务器端收到请求后,连接图数据库,返回实体属性关系等信息。
3.知识图谱
3.1 信息抽取
3.1.1信息来源
现有的知识图谱主要从自顶向下和自底向上的两种构建方式:
3.1.2 信息抽取
数据获取后,还需要从这些数据中抽取出实体、属性、关系等结构化信息建立图数据库。
1)实体抽取
早期是人工编写抽取规则,辅助利用机器学习方法进行实体抽取,但这种方法耗费大量人力,可扩展性差,算法性能依赖于训练样本的规模,具有明显的局限性。面向开放域的实体抽取和分类技术能够较好地解决这一问题,即对于任意给定的实体,采用统计机器学习的方法,从目标数据集(通常是网页等文本数据)中抽取出与之具有相似上下文特征的实体,从而实现实体的分类和聚类。
2)关系抽取
早期通过人工构造语法和语义规则,采用模式匹配的方法来识别实体间的关系。但这种方法工作量大,可扩展性差,因此采用面向开放域的关系抽取技术,直接利用语义中的关键词汇对实体关系进行建模,不需要预先指定实体关系的分类,比如面向开放域的信息抽取方法框架(Open Information Extraction, OIE)。现在OIE系统存在的主要问题是抽取的准确率以及系统对隐含实体关系的识别能力。
3)属性抽取
基于规则和启发式算法的属性抽取算法(百科类网站提供的半结构化数据是当前实体属性抽取研究的主要数据来源),如本体知识库(YAGO),其抽取准确率高达95%。
4)知识存储
当下的许多数据库采用关系型数据库对其进行存储,而在实际数据处理时所使用的数据却是图结构数据,Neo4j采用图结构的存储方式,在实际的数据处理过程中也是調用的图结构原始数据。且具有性能高、存储读写速度快、稳定性好等优点;在早期的文档、技术博客等图形数据库中运用较多,所以本文采用Neo4j来对图谱数据进行存储。
4.人脸识别的实现
通过直接调用已有的人脸检测/识别的免费开源API,如EYEKEY、虹软ArcFace、SeetaFace等。
参考文献
[1]刘峤,李杨,段宏,刘瑶,秦志光. 知识图谱构建技术综述[J]. 计算机研究与发展,2016,53(03):582-600.
[2]肖明,邱小花,黄界,李国俊,冯召辉. 知识图谱工具比较研究[J]. 图书馆杂志,2013,32(03):61-69.
[3]顾昭艺. 基于人脸识别的社交关系检索系统的设计与实现[D].北京邮电大学,2013.