基于语义分析的金融事件文本挖掘研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:zhang19890922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代,来自互联网综合门户网站(例如:新浪、腾讯等)和垂直门户网站(例如:东方财富、和讯网、巨潮资讯)的各类财经新闻、政策法规、财务报告等正规新闻资讯信息已经成为影响机构投资者和个人投资者进行股票、期货、债券等交易决策行为的最重要信息来源。每天通过互联网产生的各类财经新闻不仅数量巨大,而且内容丰富多样,虽然这些新闻文本中的概念、事件等信息很容易被人理解,但是这些以自然语言形式组织和表达的概念、事件及其内部相互关系等潜在的知识,由于先天性地缺乏明确的结构化描述和逻辑指向,很难被计算机自动地识别和分析处理,因而造成了严重的信息处理瓶颈。采用什么样的方式实现从新闻文本中自动抽取用户感兴趣的关键信息,并且如何将这些信息在抽取后组织成有价值、相互之间有关联的知识,便成为信息处理领域内研究者们需要深入解决的重要现实问题。  本文以金融新闻文本为研究对象,以文本中的金融事件为研究中心,采用语义分析等研究方法,针对信息抽取和信息组织开展了一系列的独立研究工作,主要取得了以下重要研究创新成果:  1、在前人所基于规则的信息抽取方法研究成果基础上,针对中文处理特点和金融事件领域特点,提出了一种基于词汇-语义规则模式的信息抽取方法。在该方法中,作者主要完成的创新活动有:①从顶层设计了一个金融事件模型,并且对标注类型、事件类型、事件属性等全局性质的语义分析要素进行了全面而深入地定义。②设计了一个基于有限状态机理论的标注模型和标注算法,并且采用GATE的JAPE语言来实现标注规则的编写。③提出了一个符合中文金融事件特点的概念词典的设计方案,以实现辅助完成语义标注的工作。④采用正则规则方法实现了对人名、机构名称和时间要素的预处理。⑤对Token和Lookup这两类基础标注信息的处理流程和算法进行了设计和说明。⑥对初级语义和高级语义信息的标注方法中的层次结构、管道处理流程、标注类型和具体标注方法等核心要点进行了设计和说明。  2、在基于词汇-语义规则模式的基础上,进一步提出了一种新型的基于语义规则的金融事件分类和要素抽取的方法。在该方法中,作者主要完成的创新活动有:①实现了对26类金融事件的基于词汇-语义规则方式的分类。②重点以募集资金类事件的词汇-语义规则和盈利变更类事件的词汇-语义规则为代表,对基于词汇-语义规则模式的事件分类设计要点、规则描述、事件核心要素、子程序算法进行了详细说明。③针对金融文本领域最终抽取获得的事件要素的共计34种,所抽取的事件要素的数量和类型都超过了作者所查阅的有关金融事件抽取的研究文献的成果。  3、在综合前人基于数据驱动的事件分类和基于知识驱动的事件分类研究基础上,提出了一种新的基于词汇-语义标注的事件分类方法。在该方法中,作者主要完成的创新活动有:①将词汇-语义规则模式提取出的一部分有助于事件分类的语义标注信息用于统计学习的分类方式中,即避免了单纯基于数据驱动和基于知识驱动分类方法存在的缺陷,又发挥了它们的各自长处,在本方法中使之相得益彰。②对基于语义标注的统计学习事件分类处理流程进行了详细地设计和要点说明。③详细说明了如何选择用于统计学习的语义标注及其后处理流程和算法。④提出了文档-特征矩阵的概念,并且在其基础上详细设计了:基于词条的向量空间模型、基于词性标注的向量空间模型、基于语义标注的向量空间模型、基于词条-语义标注的向量空间模型和基于词性标注-语义标注的向量空间模型。⑤分别详细说明了将TF-IDF、Chi Square、CFS、IG、IGR五种特征选择算法分别应用于分类特征选择方法中的建模过程和有关公式。⑥分别详细说明了将SVM、NB和KNN算法应用于分类器训练中的模型设计和有关公式。  4、应用语义网络和知识图谱相关理论、技术,提出了一种新的面向金融事件的知识图谱系统的本体设计和自动填充的方法。在该方法中,作者主要完成的创新活动有:①设计了一个完整的面向金融事件的知识图谱系统框架,并且对知识图谱系统建设中最重要的环节:数据获取、信息抽取和知识的加工和更新部分进行了详细说明和实际地开发实现。②设计了一个完整的中文金融事件本体,并且对金融事件本体中的概念类、对象属性、数据属性的设计进行了详细说明。③对如何实现本体实例的自动填充和实体关系更新的方法进行了探索,详细说明了面向关系型数据库的自动填充和面向互联网文本语料的自动填充两种方法中的:填充对象设计、填充流程设计、填充算法设计和要点。  以上四大创新点都不是相互孤立存在的,而是紧密围绕以事件中的语义要素为研究中心环环相扣、步步递进的。其中词汇-语义规则模式创新点是后续一切研究的基础,也是本文研究的重中之中,基于语义规则的分类和基于语义标注的统计学习分类是对传统的文本分类问题的一个问题两个方面地深入研究,面向金融事件的知识图谱则是站在以上研究成果基础上,进行的如何将信息抽取结果实现知识化组织方面的探索。  作者对本文所提出的四大创新成果均在每一章中采用实际的数据进行实验验证,这更加充分地说明了本文提出的创新点的现实可行性。试验中所取得的主要效果指标有:  1、基于语义规则的金融事件分类和要素抽取的方法:微平均正确率(micro Precision)为:0.959;微平均召回率(micro Recall)为:0.866;微平均F1值(micro F1)为:0.910。  2、基于词汇-语义标注的事件分类方法:采用本方法与基于基于词袋表示的向量空间VSM模型相比较,在使用相同特征选择算法和分类器算法的前提下,Micro_F1值提高11.17%左右,Micro_Precision提高10.24%,Micro_Recall提高9.28%,Micro_Kappa提高10.81%。  3、面向金融事件的知识图谱系统的本体设计和自动填充的方法:共生成概念类58条、对象属性148条、数据属性87条,填充本体实例132186条。  通过阅读、了解本文,可以帮助读者们快速理清、学习和掌握基于语义的金融事件文本挖掘方面的研究成果、研究思路、研究方法和技术手段、路线,更进一步地推动中文文本挖掘技术的发展,这应是本文真正的价值之所在。
其他文献
加入WTO后中国的银行业将面临更加激烈的竞争.该文通过对WTO体制下的金融服务贸易协议的研究,分析了中国银行业加入WTO后所需要遵守的国际惯例与规则.通过对中外银行业的经营
财务共享服务平台的普遍构建意味着财务人员将接触到更多的企业财务数据信息,信息安全问题在财务共享中开始显现.本文分析了财务信息安全问题所引发的从业人员职业道德淡化的
利用外部资源特别是外部人力资源已成为企业获取竞争优势的关键因素之一.虚拟人力资源(VHR)指的是企业在实现其目标的过程中暂时所利用的外部人力资源.该文以虚拟人力资源为
南京外国语学校仙林分校班级管理体制改革已经进行到了第十年,我作为班改的一份子在这片改革的试验田里也奋斗了十年。由一开始的迷茫不知所措到现在逐渐看到方向,这里面的酸甜苦辣各种滋味只有真实参与进去的人方才品尝得到。自参与到中学部的班级管理改革中后,感觉可以将自己的一些做法更加明晰化,由此得来几点体会与同仁分享。  一、“三心”教育观  我认为一个教师应该拥有自己的教育理念。我的“三心”教育观源于陶行知
期刊
采用电子商务所需的较大的前期投入也只有国有企业才能够承担.由此我们可以这样得出结论,也许电子商务的应用能够为国有企业在竞争性行业中的生存和发展闯出一条新路.该论文
长沙某电视频道的《女人故事》是一档讲述发生在女性生活中的故事栏目。从近两周的故事内容来看,主要有以下几类:1、因丈夫出轨而愤然捉奸或 A TV channel in Changsha, “W
连队新闻士兵写,身边新事报上见。面向基层的专栏《士兵播报——我们连队的新闻》,于2004年9月17日在《前卫报》一版与读者见面,到2006年11月12日,共刊出115期、发稿230篇,30
随着社会的日益发展,以计算机为核心内容的信息技术课程在聋校教学中逐渐普及,信息技术作为一门新兴的学科,其教学方法不能完全沿用传统学科的教学模式,而应不断改进教学方法
Current rice production is usually guaranteed by applying large amount of chemical nitrogen fertilizers to paddy soils. Theimprovement of nitrogen use efficienc
该文在分析世界石油环境的基础上,探讨了中国石油工业的现状,指出了中国石油工业走出国门的必然,这不仅是中国国民经济发展的要求,也是提升中国石油工业国际竞争力的必由之路