论文部分内容阅读
随着通信和信息技术的飞速发展,特别是因特网的出现,极大地方便了信息的交流和传播,从而大大拓展了全球范围内交流的广度和深度,将全世界前所未有地紧密联系在了一起,形成了一张巨大而复杂的国际关系网络。在此背景下,研究者希望通过网络的方法,分析网络结构,了解其中不同关系对于国际局势和热点事件的影响,从整体上研究国家间关系发展变化的规律,这就是目前兴起的国际关系网络研究。值得指出的是,通过关系网络这种形式化的方法去研究国际关系这样复杂的非形式化问题必然存在信息丢失等一些天然的困难和不足,也不可能解决国际关系研究中的所有问题.因此本研究工作的主要意义并非要提出一个一劳永逸解决国际关系研究的方案,而在于研究如何在现有工作基础上做出创新,更好地通过形式化的方法描述和处理国际关系,为国际关系研究者提供更加有力的工具,辅助专家对于国际关系的研究,同时也为普通用户提供一个更加直观方便了解国际局势的界面.分析目前研究现状,作为研究基础的国际关系网络的构建工作尚显薄弱,已有工作基本都是基于结构化数据,采用手工或半手工方法构建,存在数据来源单一,实时性差,人力物力消耗巨大,一致性难以得到保证等问题。基于以上问题,本论文研究实现了结合文本挖掘技术,从非结构化文本中构建国际关系网络的方法,能够通过对于文本语料的分析,自动发现国家及其之间的关系,从而大大扩展了国际关系网络的研究范围。该方法对于解决互联网信息爆炸,即如何从繁杂的信息中得到可用知识的问题也有一定积极意义。本研究具体在如下几个方面做出了创新:(1)基于文本挖掘的国际关系网络构建方法。针对目前尚没有基于文本数据自动构建国际关系网络的现状,本文在“信息-知识-智能”统一理论的指导下,提出了通过文本挖掘从大规模文本中构建国际关系网络的方法,将国际关系网络的数据来源从结构化数据库扩大到了非结构化文本数据,大大拓展了国际关系网络研究的数据来源,同时也为解决网络信息爆炸,知识发现困难的问题提供了一条有意义的途径.工作中同时构建了一套从数据获取到网络构建以及可视化展示的完整系统,通过一系列实验对比分析验证了构建方法的可靠性。(2)关系的定义和发现。通过结合有关社会网络和人际关系的研究,本文认为双方联系中的强度,情感,地位是关系的重要特征,对于网络的静态结构,动态演变发展具有不同影响。在此基础上,本研究使用了一系列文本挖掘的技术,实现了从文本对于这三种特征的发现和抽取,并通过实验验证相关抽取算法对于以上三种特征都具有较好的识别效果。基于关系的三种特征,本文还尝试提出了一个包括五种关系类别的国际关系定义体系方法,从而完成了国际关系网络中关系的定义和发现。(3)实体之间情感关系的发现。实体之间的情感关系是国际关系的一个重要特征.目前情感分析虽然取得了一系列研究成果,但是对于通过分析文本,获得其中实体对之间情感的研究工作,尚处在起步阶段,尤其中文领域,尚未见到有类似工作。本研究提出了一种三步走的方法,通过实体对发现和抽取,情感相关区域发现,情感倾向判断完成了在句子级别上获得实体对之间情感的工作.在研究中还通过对比分析了基于规则和基于机器学习的算法,以及不同的相关区域,其中基于句法分析树的条件随机场(CRF)模型获得了最好的效果。(4)可视化界面的设计和实现。本文分析了目前网络可视化方法对于国际关系网络可视化的不足,提出了结合地理信息的可视化方法。以Google Maps地图作为底板,结合Google Maps API和Mysql数据库,实现了在电子世界地图上的国际关系网络可视化。该可视化界面还提供一定的检索和查询功能,供用户更方便地查询检索自已感兴趣的内容,更深入研究国际关系网络。(5)国际关系网络分析和关系预测。本文通过可视化界面对构建出的国际关系网络进行了一些分析,获得了有关热点国家地区以及网络结构特点的一些发现.研究中还通过所收集到的不同时间段数据,尝试通过机器学习方法对国家间关系发展作出预测,实验结果显示该方法在五种关系的预测上达到了63.1579%的准确率,具有一定的实际意义。