论文部分内容阅读
实体关系抽取是指自动识别非结构化文本中两个实体之间的关联,是信息抽取的一个重要研究内容。信息可视化是利用计算机技术将信息转化为视觉形式的技术,以充分利用人的感知能力去观测、浏览、识别和理解信息。本文将实体关系抽取与信息可视化相结合,作为本文研究的对象,实体关系抽取为信息可视化提供信息,信息可视化则直观地表达出实体关系抽取的结果。
本文在目前实体关系抽取的研究背景和技术现状的基础上,使用基于特征向量的机器学习方法对中文实体关系抽取进行研究,该方法将实体关系抽取作为一个分类问题。在机器学习方法方面,由于支持向量机SVM具有严格的数学理论基础、直观的几何解释和良好的泛化能力,因此本文选择了SVM作为分类器。在特征向量构造方面,本文从实体对的上下文特征、实体特征、词汇特征三方面进行研究,重点引入上下文词语信息增益权重特征和核心词语相似度权重特征,以增加特征向量的区分度。针对SVM分类器多分类方面的不足,本文将实体关系抽取问题分解为多个规模较小的问题,减少了SVM分类器学习和预测的类别数量和计算量。针对标注语料库不足的问题,本文引入自扩展的方法,半自动扩展未标注语料库,同时该方法也为词语相似度的计算提供核心词集。
本文在实体关系抽取研究的基础上,结合信息可视化的模型,研究了文本内容可视化和实体关系可视化的方法。在文本内容可视化方面给出了颜色图的可视化方法。在实体关系可视化方面则将实体关系看作一个网络图结构,提出了建立可视化结构和可视化映射的方法,并采用力向导算法对网络图进行自动布局。同时,本文还对信息可视化的交互性要求进行了讨论。
本文在以上理论研究的基础上开发了一个实体关系抽取及可视化的系统原型RelationView。在此系统平台上对实体关系抽取进行实验,验证了特征向量构造的正确性。与此同时,本文还给出了利用力向导算法自动布局的实体关系可视化效果图,得到布局结果不仅符合美观的标准,而且直观地表现出了实体关系网络图结构的特点。