论文部分内容阅读
互联网时代,来自互联网综合门户网站(例如:新浪、腾讯等)和垂直门户网站(例如:东方财富、和讯网、巨潮资讯)的各类财经新闻、政策法规、财务报告等正规新闻资讯信息已经成为影响机构投资者和个人投资者进行股票、期货、债券等交易决策行为的最重要信息来源。每天通过互联网产生的各类财经新闻不仅数量巨大,而且内容丰富多样,虽然这些新闻文本中的概念、事件等信息很容易被人理解,但是这些以自然语言形式组织和表达的概念、事件及其内部相互关系等潜在的知识,由于先天性地缺乏明确的结构化描述和逻辑指向,很难被计算机自动地识别和分析处理,因而造成了严重的信息处理瓶颈。采用什么样的方式实现从新闻文本中自动抽取用户感兴趣的关键信息,并且如何将这些信息在抽取后组织成有价值、相互之间有关联的知识,便成为信息处理领域内研究者们需要深入解决的重要现实问题。 本文以金融新闻文本为研究对象,以文本中的金融事件为研究中心,采用语义分析等研究方法,针对信息抽取和信息组织开展了一系列的独立研究工作,主要取得了以下重要研究创新成果: 1、在前人所基于规则的信息抽取方法研究成果基础上,针对中文处理特点和金融事件领域特点,提出了一种基于词汇-语义规则模式的信息抽取方法。在该方法中,作者主要完成的创新活动有:①从顶层设计了一个金融事件模型,并且对标注类型、事件类型、事件属性等全局性质的语义分析要素进行了全面而深入地定义。②设计了一个基于有限状态机理论的标注模型和标注算法,并且采用GATE的JAPE语言来实现标注规则的编写。③提出了一个符合中文金融事件特点的概念词典的设计方案,以实现辅助完成语义标注的工作。④采用正则规则方法实现了对人名、机构名称和时间要素的预处理。⑤对Token和Lookup这两类基础标注信息的处理流程和算法进行了设计和说明。⑥对初级语义和高级语义信息的标注方法中的层次结构、管道处理流程、标注类型和具体标注方法等核心要点进行了设计和说明。 2、在基于词汇-语义规则模式的基础上,进一步提出了一种新型的基于语义规则的金融事件分类和要素抽取的方法。在该方法中,作者主要完成的创新活动有:①实现了对26类金融事件的基于词汇-语义规则方式的分类。②重点以募集资金类事件的词汇-语义规则和盈利变更类事件的词汇-语义规则为代表,对基于词汇-语义规则模式的事件分类设计要点、规则描述、事件核心要素、子程序算法进行了详细说明。③针对金融文本领域最终抽取获得的事件要素的共计34种,所抽取的事件要素的数量和类型都超过了作者所查阅的有关金融事件抽取的研究文献的成果。 3、在综合前人基于数据驱动的事件分类和基于知识驱动的事件分类研究基础上,提出了一种新的基于词汇-语义标注的事件分类方法。在该方法中,作者主要完成的创新活动有:①将词汇-语义规则模式提取出的一部分有助于事件分类的语义标注信息用于统计学习的分类方式中,即避免了单纯基于数据驱动和基于知识驱动分类方法存在的缺陷,又发挥了它们的各自长处,在本方法中使之相得益彰。②对基于语义标注的统计学习事件分类处理流程进行了详细地设计和要点说明。③详细说明了如何选择用于统计学习的语义标注及其后处理流程和算法。④提出了文档-特征矩阵的概念,并且在其基础上详细设计了:基于词条的向量空间模型、基于词性标注的向量空间模型、基于语义标注的向量空间模型、基于词条-语义标注的向量空间模型和基于词性标注-语义标注的向量空间模型。⑤分别详细说明了将TF-IDF、Chi Square、CFS、IG、IGR五种特征选择算法分别应用于分类特征选择方法中的建模过程和有关公式。⑥分别详细说明了将SVM、NB和KNN算法应用于分类器训练中的模型设计和有关公式。 4、应用语义网络和知识图谱相关理论、技术,提出了一种新的面向金融事件的知识图谱系统的本体设计和自动填充的方法。在该方法中,作者主要完成的创新活动有:①设计了一个完整的面向金融事件的知识图谱系统框架,并且对知识图谱系统建设中最重要的环节:数据获取、信息抽取和知识的加工和更新部分进行了详细说明和实际地开发实现。②设计了一个完整的中文金融事件本体,并且对金融事件本体中的概念类、对象属性、数据属性的设计进行了详细说明。③对如何实现本体实例的自动填充和实体关系更新的方法进行了探索,详细说明了面向关系型数据库的自动填充和面向互联网文本语料的自动填充两种方法中的:填充对象设计、填充流程设计、填充算法设计和要点。 以上四大创新点都不是相互孤立存在的,而是紧密围绕以事件中的语义要素为研究中心环环相扣、步步递进的。其中词汇-语义规则模式创新点是后续一切研究的基础,也是本文研究的重中之中,基于语义规则的分类和基于语义标注的统计学习分类是对传统的文本分类问题的一个问题两个方面地深入研究,面向金融事件的知识图谱则是站在以上研究成果基础上,进行的如何将信息抽取结果实现知识化组织方面的探索。 作者对本文所提出的四大创新成果均在每一章中采用实际的数据进行实验验证,这更加充分地说明了本文提出的创新点的现实可行性。试验中所取得的主要效果指标有: 1、基于语义规则的金融事件分类和要素抽取的方法:微平均正确率(micro Precision)为:0.959;微平均召回率(micro Recall)为:0.866;微平均F1值(micro F1)为:0.910。 2、基于词汇-语义标注的事件分类方法:采用本方法与基于基于词袋表示的向量空间VSM模型相比较,在使用相同特征选择算法和分类器算法的前提下,Micro_F1值提高11.17%左右,Micro_Precision提高10.24%,Micro_Recall提高9.28%,Micro_Kappa提高10.81%。 3、面向金融事件的知识图谱系统的本体设计和自动填充的方法:共生成概念类58条、对象属性148条、数据属性87条,填充本体实例132186条。 通过阅读、了解本文,可以帮助读者们快速理清、学习和掌握基于语义的金融事件文本挖掘方面的研究成果、研究思路、研究方法和技术手段、路线,更进一步地推动中文文本挖掘技术的发展,这应是本文真正的价值之所在。