基于文本挖掘技术的金融预测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:w346399938
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着世界经济全球化及世界金融业的不断发展,金融活动中的不确定性增加,金融预测日益受到学术界及金融业界的高度重视。人们希望通过对金融经营管理活动中难以确定的未来发展趋势和规律进行研究,做出预见性的判断与推测,使金融活动中的不确定性最小化,为制定金融计划和金融决策提供依据。近年来由于海量金融信息的出现,数据挖掘技术在金融预测领域开始得到广泛研究与应用,但大多数的研究只局限于数值信息。海量金融信息中有大量的数据是以文本的形式存在,如何从这些文本信息中挖掘出有价值的信息变得异常重要。为了提高金融预测的准确度,本文主要研究将文本挖掘相关技术引入到金融预测领域。在金融文本预处理方面,对金融报告的语义标注进行了研究,在标注的金融文本基础上,对金融报告的可信度进行了分析。进而基于文本挖掘相关技术,对金融预测的两个重要问题:金融时间序列及金融短期波动率进行了预测研究。本研究内容主要包括:  ⑴面向金融预测的年报语义标注方法研究。年度报告已经成为投资者进行金融预测时重要的信息来源。为了使投资者更方便和更准确检索到所需信息进行预测,针对中文与英文年报,本文分别提出了基于领域本体和自然语言处理技术的语义标注方法与基于正则表达式的半自动语义标注方法。对中文年报的公司基本信息及英文年报的管理层讨论与分析部分所进行的语义标注实验表明,所提出方法是有效的。  ⑵基于文本挖掘技术的年报可信度研究。上市公司的年报是投资者进行金融预测的重要信息来源,当上市公司的报告造假时,所做的预测将无效并将给市场参与者带来巨大损失。已有的研究表明基于语言特征的识别方法在造假识别方面是一种有效的方式。本文在年报可信度分析领域引入了无监督机器学习方法,基于已标注的年报管理层讨论与分析部分,提出了一种以文本语言特征为基础的层次聚类方法。该方法包含三个步骤:将年度报告的文本数据以特征向量方式表示;选择最佳相似度计算函数和连通方法;执行层次聚类,识别造假年度报告。为了验证所提出方法的有效性,本文应用所提出的算法对十家上市公司的年度报告分别进行实验,对比实验结果表明,所提出的方法具有较好的性能。  ⑶基于文本挖掘技术的金融时间序列预测方法研究。金融时间序列预测是金融预测领域的一个重要问题,但因其充满噪声、非平稳和混沌性,对它的预测成为一个非常具有挑战性的课题。文本数据中包含着有价值的预测信息,但大多数现有的预测模型并没有考虑到伴随着时间序列的文本数据。为了克服这一局限性,在保证年报可信度的情况下,本文提出了一种组合采用数值和文本信息,通过结合差分自回归移动平均模型(ARIMA)和支持向量回归模型(SVR)的方法进行金融时间序列预测。该方法包含三个步骤:将文本数据表示为特征向量,使用基于数值的ARIMA模型分析时间序列的线性部分,基于文本特征向量的支持向量回归模型处理非线性部分。为了验证该方法的有效性,本文选择六家上市公司的季度末净资产收益率(ROE)时间序列作为预测对象。对比目前现有主流模型,本文模型表现了更为优异的性能。这表明本文所提出的使用额外文本数据进行预测的模型,是一种有效的金融时间序列预测方法。  ⑷基于支持向量回归的马尔科夫转换多重分形模型金融短期波动率预测方法研究。金融时间序列波动率因为其长期记忆,厚尾和波动持久等特性,受到研究者的广泛关注。多重分形过程最近成为解决金融时间序列波动率预测问题的一个新方法,一种迭代马尔科夫转换多重分形模型(MSM)被引入这一领域,它能够捕捉到金融时间序列许多重要的内在特征,该模型在长期预测方面表现出良好的性能。为了提高马尔科夫转换多重分形模型短期预测的准确性,本文将文本挖掘的重要技术:支持向量机技术引入到波动率预测的马尔科夫转换多重分形模型中,提出了一个基于支持向量回归的马尔科夫转换多重分形模型,马尔科夫转换多重分形模型用于预测波动率,支持向量回归模型用于预测其扰动项(innovations)。为了验证该方法的有效性,本文选择中国A股市场的上证指数、深证指数作为预测对象,对比单一的马尔科夫转换多重分形模型和GARCH(1,1)模型,本文模型表现了更为优异的性能。
其他文献
在互联网不断普及的今天,基于网络的视频监控系统已经是未来视频监控系统的趋势。本文结合嵌入式系统的优势和特点以及无线网络技术,提出了一种无线视频监控系统的设计方案,完成
机器人发明以来,人类最大的梦想就是让机器人在自己生活的各领域都能够代替自己工作,服务机器人就是这个梦想的完成者。作为人类的替代品,服务机器人应该具有与人类相同的能
人类的主要视觉感知来自物体的颜色、纹理和形状。纹理是物体表面的一种基本的属性也是物体最重要的特征之一,可以用它来描述和区分物体。纹理分析是人类区分目标的重要感知功
随着计算机技术的不断发展,穿戴设备的更新换代以及人们对产品体验要求的不断提高,自然和谐的交互界面依然成为交互领域研究的热点。传统的以“机器为中心”的交互方式也逐渐
随着计算机软件、硬件和通信技术的不断发展,产生了一种新的计算模型,即云计算。在云计算中,人们可以在云端享受各种云服务,这就需要云计算管理中心提供有效的安全机制,来保证服务
无线传感器网络(Wireless Sensor Network,WSN)技术是21世纪具有广泛应用前景的热门网络技术,由于无线传感器网络自身特点,节点能量十分有限,往往部署一次后就难以再次补充能量,因
近年来,作为人工智能与机器人科学研究的载体和小型高科技对抗的平台,机器人足球比赛受到了国内外学者的普遍关注。足球机器人涉及到机械、电子、控制、模式识别、图像处理和
在计算机视觉和计算图形学中,基于图像序列的三维模型重建技术是一个重要研究课题。随着日益流行的虚拟现实、电子游戏、数字图书馆等领域的快速发展,高度真实感的三维模型的需
形式化方式包括了形式规范和设计验证两个方面,它的目的是以数学的方式来对系统进行描述,为保证软件的可靠性提供条件。在现代软件系统开发过程当中,经常会要求在某些限定的时间
综合模块化系统架构通过系统应用分区,构建面向通用平台、通用功能组织、应用功能独立、物理结构(射频、光电)和信息高度综合的开放式模块化航空电子系统,是实现系统功能和资源的