论文部分内容阅读
文本挖掘是一项综合性的课题,涉及数学、统计学、计算机科学等众多技术,是用来应对信息爆炸的有力武器。互联网上的信息汗牛充栋,其中不乏有用的知识,但无关的噪音更多,人力早已无从甄别,只有在现代计算机的性能飞跃发展的基础上,使用分布式计算(Distributed Computation)如Hadoop、Map-Reduce等技术处理大数据。本文回顾了资产组合理论的起源与发展,及其在资本市场的深远影响和广泛运用,同时建立在这块基石上的传统金融学理论现今也受到越来越多的市场异象的挑战,所以一些学者借鉴了很多社会科学、行为学、心理学的理论成果,对市场异象给出了解释,发展了行为资产组合理论。在前人研究的基础上,我们证明了文本挖掘系统实施的可行性。本文致力于利用计算机技术分析金融文本的情绪,搭建了文本挖掘系统,针对门户网站的财经新闻及雪球发贴,使用网络爬虫抓取文本,使用分布式计算和大规模支持向量机(LSSVM)对文本进行分类;设计了股票关注度、情绪量化指标,对这些金融文本数据进行量化分析;将该指标纳入传统价值选股模型,建立了文本挖掘选股模型。我们创新性地建立了中文文本挖掘系统,首先对投资社交平台一雪球网的金融文本数据进行了挖掘。我们创新性地设计了文本挖掘选股因子买入卖出信号,并验证了该信号的有效性。对于传统选股模型与文本挖掘选股模型,我们创新性地用有效赌注数来评判模型的优劣,即对比二者的风险分散化水平。通过对比我们发现,在传统选股模型中加入文本挖掘选股因子,能提供一个有别于公司基本面、股价量价关系等指标的全新视角,有效增加选股模型的风险分散化水平,资产组合预期能获得更为稳定的低风险收益。文本挖掘模型的有效性,也从旁佐证了投资行为偏差的存在,通过对这些偏差的识别,能增加选股模型获得超额收益的可能性。通过本文的研究,我们加深了对现代资产组合理论的理解,对行为金融学的发展、文本挖掘技术的运用进行了非常有益的探讨。