论文部分内容阅读
地学和资源环境学科的研究对象一般都包含地理位置信息,通过对海量科学文献中地名的自动识别和标记,可以分析某一研究领域科研活动的空间分布态势,判断研究热点区域、空白区域,有助于科研决策者和科研人员调整科研发展战略和力量部署。这也会给传统的基于文献的情报分析研究,增加空间维度,是情报分析研究方法的创新。
但是,当前基于科研文献开展科研活动布局的空间自动分析,只是基于文献书目数据中作者单位字段由作者明确标记出的机构地址信息开展的,尚未深入到文献内容涉及的研究区的挖掘,也未涵盖中文文献。基于上述问题的认识,本文开展了如下研究:
首先,对地名解析的关键环节,即地名识别和地理编码的原理、方法和关键技术进行了系统分析,整理了包括汉语分词、地名识别、地名排岐、地理主题的判定、地理编码等的研究脉络,并着重对数字地名知识库在地名解析各个环节中的作用,支持地名解析的数字地名词典的核心要素的特点、作用进行了深入剖析;然后着重对几种典型的基于机器学习的方法进行了对比分析。
接着,在对资源环境领域科学文献中地名出现的特点和规律进行分析的基础上,构建了基于文本中地名解析开展科研活动空间分析的方法框架,设计并实现了用于中文科研文献中地名解析的实验原型系统。基于中文分词软件ICTCLAS二次开发,设计了支持地名识别、地名排岐、地理主题中心判定、地名编码要求的数字地名知识库;利用支持地名识别的规则,基于科学文献中地名出现的特点,设计提出了地理主题中心的判定算法,并将识别判定出的地理主题中心用GoogleMap的API实现地理编码功能。
然后基于该地名解析试验系统,选取了具有人文地理特点的生态足迹和具有自然地理特点孢粉研究的文献集合开展基于文本中地名解析,结合GIS开展科研活动空间分析的试验性研究,结果表明,该原型系统对于作者所在地的识别率可达98%,地理编码率达94.96%,对行政区划地名出现较多的生态足迹领域研究区的地名的识别率达87.18%,地理编码率接近到85%,但对于自然地理实体出现较多的孢粉研究领域地名的识别率和地理编码率较低。从而验证了基于科研文献中地名解析,结合地理信息系统开展科研活动布局空间分析的方法的可行性,并发现了其中存在的问题。
进一步结合试验性应用中发现的问题,提出了对系统架构和方法的改进设计。该设计重点在于(1)引入条件随机场方法进行地名识别,(2)在地理编码阶段将地名解析和地名数字知识库的内容建设过程结合,通过算法改进提高地名编码率。(3)在分析阶段将地理信息系统与文献计量学的可视化方法结合起来。
还开展了基于条件随机场进行地名识别的初步实验,验证了基于条件随机场地名识别模型的引入,将显著提高地名识别效率,支持了系统架构改进设计的思路。并再次开展了利用条件随机场地名识别的基于科研文献的孢粉研究领域研究区分布的分析,结果表明,新疆、青海、西藏等地为孢粉研究热点区域,而湖南、贵州、江西、浙江、宁夏等省和自治区的采样点很少。
本研究构建了基于海量科学文献开展科研活动空间分析的方法框架,将基于海量科学文献的地名解析方法应用于资源环境学科情报分析研究领域,从情报计算化角度开展文本中空间知识挖掘和分析的探索和创新,为资源环境学科发展态势分析和科研活动空间分析提供了新的视角。本研究是在中文科研文献中地名解析的方法和机制上的系统梳理和实验,是为提高海量科学文献知识挖掘效率,支持基于海量文献地名解析开展科研活动的空间分析的有益探索,将对基于海量中文文献中地名解析的科研活动空间分析的研究和实践提供参考。