论文部分内容阅读
Web资源蕴含了海量的结构化和非结构化知识,将这些碎片化知识进行抽取、整理和融合成为一个大规模知识图谱是互联网发展的趋势。知识图谱根据其包含的知识范畴被细分为开放知识图谱和垂直领域知识图谱。尽管开放知识图谱在近几年得到了巨大的发展,但是它们在垂直领域中并没有得到深入地应用,许多应用场景对垂直领域知识图谱提出了很大的需求,因此本文提出构建商业领域的企业知识图谱。本文从上市公司的公报数据中抽取了企业之间的商业往来关系,并从新闻文本数据中抽取了企业所发生的重大事件和事件摘要,最后对比分析了知识图谱和社交网络在图结构上的统计特征。本文的主要贡献如下:·提出了构建企业知识图谱的框架,将垂直领域的关系抽取任务抽象成分类问题,通过训练最大熵模型抽取企业之间不同类型的商业往来关系,关系抽取的准确率平均达到85%以上,部分特定关系的准确率达到95%以上,相比基于开放领域的关系抽取方法,本文方法的F1值平均提高了12.16%。本文从109万篇上市公司的公报数据和250万篇新闻数据中抽取了超过5万以上的命名实体和14万以上的实体关系,构建了完整的企业知识图谱。·采用聚类算法从新闻文档中抽取了企业的相关事件以及事件的发展过程,并提出基于事件关键词的词集覆盖优化算法抽取了事件的摘要。通过定义摘要的评估指标并和四种基准模型进行对比体现了本文方法的优越性,通过一个案例分析体现了本文方法在真实数据集上的有效性。本文总共抽取了3,073家上市公司包括8,205个新闻事件以及事件的摘要。·从图的角度出发,对同一知识图谱不同子图之间、不同类型的知识图谱之间以及知识图谱和社交网络之间在图结构上的统计特征进行了全面的对比分析。将四种知识图谱和两种社交网络在13个单值统计特征、4个分布统计特征上的表现进行分析,发现它们在多种统计特征上都有很大的差异,比如连通子图分布、节点凝聚因子、三角关系的数量等。通过对比分析这些统计特征,可以为知识图谱的数据管理提供参考意见。本文还对知识图谱的语义关系进行了关联度分析,表明关联度很高的语义关系之间通常具有很高的主题相关性。本文在构建企业知识图谱的过程中,对比了垂直领域知识图谱和开放知识图谱构建方法的区别,并根据垂直领域的特定问题给出了特定的解决方案,对一般领域知识图谱的构建具有实践意义。本文对比分析了知识图谱和社交网络在图结构上的统计特征,对知识图谱的数据管理比如存储、索引、查询优化等具有借鉴意义。