文本挖掘选股与资产组合建模及其分散化研究

被引量 : 0次 | 上传用户:gratify
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘是一项综合性的课题,涉及数学、统计学、计算机科学等众多技术,是用来应对信息爆炸的有力武器。互联网上的信息汗牛充栋,其中不乏有用的知识,但无关的噪音更多,人力早已无从甄别,只有在现代计算机的性能飞跃发展的基础上,使用分布式计算(Distributed Computation)如Hadoop、Map-Reduce等技术处理大数据。本文回顾了资产组合理论的起源与发展,及其在资本市场的深远影响和广泛运用,同时建立在这块基石上的传统金融学理论现今也受到越来越多的市场异象的挑战,所以一些学者借鉴了很多社会科学、行为学、心理学的理论成果,对市场异象给出了解释,发展了行为资产组合理论。在前人研究的基础上,我们证明了文本挖掘系统实施的可行性。本文致力于利用计算机技术分析金融文本的情绪,搭建了文本挖掘系统,针对门户网站的财经新闻及雪球发贴,使用网络爬虫抓取文本,使用分布式计算和大规模支持向量机(LSSVM)对文本进行分类;设计了股票关注度、情绪量化指标,对这些金融文本数据进行量化分析;将该指标纳入传统价值选股模型,建立了文本挖掘选股模型。我们创新性地建立了中文文本挖掘系统,首先对投资社交平台一雪球网的金融文本数据进行了挖掘。我们创新性地设计了文本挖掘选股因子买入卖出信号,并验证了该信号的有效性。对于传统选股模型与文本挖掘选股模型,我们创新性地用有效赌注数来评判模型的优劣,即对比二者的风险分散化水平。通过对比我们发现,在传统选股模型中加入文本挖掘选股因子,能提供一个有别于公司基本面、股价量价关系等指标的全新视角,有效增加选股模型的风险分散化水平,资产组合预期能获得更为稳定的低风险收益。文本挖掘模型的有效性,也从旁佐证了投资行为偏差的存在,通过对这些偏差的识别,能增加选股模型获得超额收益的可能性。通过本文的研究,我们加深了对现代资产组合理论的理解,对行为金融学的发展、文本挖掘技术的运用进行了非常有益的探讨。
其他文献
本文采用eQUEST能耗模拟软件模拟某办公建筑能耗,并与实测能耗进行对比,分析引起实测能耗数据与模拟能耗数据差异的原因,为后续能耗模拟仿真应用的合理性、运营监测与仿真联
《中国新文学大系》(1917-1927)(以下简称《大系》)对新文学第一个十年间的文学发展状况作了全面的总结,保存了大量有价值的文学史料。《大系》的十篇导言对新文学发展的各个
本文首先将晚明时期的文言小说作为一个整体进行研究,对其面貌做了概述。晚明时期文言小说创作在唐宋传奇的基础上得以恢复和发展,人物塑造由平面趋向立体,叙述方式由单一趋
曾糙的《类说》,作为宋代的一部重要的类书,以其博约兼资、增知广闻受到历代学者的重视,征引亦较多,但系统的研究却比较少见。笔者对曾慥的生平事迹,《类说》的著录情况、版
中国西部一直是多民族聚居的地区,千百年来,各个民族之间通过迁徙、贸易、通婚与战争等渠道,相互竞争又相互融合,形成了多元的文化格局,其中,底蕴最为深厚的农耕文化则始终占
肝纤维化是各种慢性肝损伤因素引起肝组织反复发生炎症损伤,导致结缔组织异常增生的病理过程。肝纤维化过程复杂,受多种因素影响。目前认为肝星状细胞(hepatic stellate cell
日前,国家住房城乡建设部等部门发布《关于公布2018年列入中央财政支持范围中国传统村落名单的通知》。《通知》公布了两批中央财政支持中国传统村落名单,共计600个,我市有15个
报纸
以水利信息化为基础,借助GPRS网络平台,充分考虑本省供水现状,整合现有资源,针对计量监测设施、信息传输、中心设备布置及功能实现、安全防护和数据分析处理等环节,进行分层、分步
从公共知识分子的角度去解读韩少功,是一个值得尝试的课题。独立姿态、理性精神与批判精神是公共知识分子的三个主要特征。独立姿态的获得意味着能超越一般的利害关系,客观公
随着低成本医疗和健康技术概念的提出,近年来各医学科研机构高度重视在非药物治疗技术方面的研究成果。而起源于我国的针灸,就是其中一项热门技术。它本身具有许多优点:自然的