论文部分内容阅读
随着信息技术的发展,互联网(Internet)媒体逐渐成为主流的媒体形式。特别是以博客、微博、社会化新闻、维基百科和网络论坛为主的社交媒体(Social Media)的兴起,其媒体影响力日益加剧。在社交媒体中,每个人既是信息的发布者(传递者),也是媒体的受众者,信息以1到N的裂变速度进行广泛传播,这使得媒体的受众和传播速度成几何增长。海量信息和裂变式传播使互联网媒体对股票市场产生了举足轻重的影响。在研究互联网媒体对股市波动的影响中,为了捕捉不同维度(种类)的信息(市场交易信息、股民情感信息、媒体新闻信息等)对股市的影响,经典的做法是把不同维度的信息特征值拼接为一个超级特征向量,然后运用基于向量预测模型去探测互联网媒体信息对股市的影响。但是,由于不同维度的信息是交互影响,并且紧密相关、互为补充,将不同维度的信息之间的关联隔断后直接拼接成一个新的特征向量将会导致关键信息丢失和预测失误。在本研究中,我们提出用张量来表示媒体信息空间,从而可以将不同维度的信息和之间的相互关系纪录下来,并提出了一个基于张量理论的监督学习算法来捕捉互联网媒体与股票市场的波动关系。
本研究将张量理论、机器学习算法和股票市场相关理论相融合,实现了基于向量的机器学习算法向张量的拓展,同时通过张量对媒体信息空间的表示,分析了不同维度的信息间的相互作用,更全面的反应互联网媒体信息对股票市场的影响,从而探析信息对股票市场波动的驱动作用,并为量化社会科学研究探索了一个新途径。
本文第一部分包括第一、二章,其对研究背景、目的,国内外研究现状,相关理论和基础做简单介绍。股票价格与互联网媒体信息的关系一直是经济学、行为金融学的研究热点。随着信息技术,特别是计算机技术如数据挖掘技术跨领域的应用,使得互联网信息和股票价格相关关系的研究大量出现,如Tetlock的研究证明了信息对股票市场的影响。那如何更加全面的表示互联网媒体不同维度的信息和之间的相互关系,以及媒体信息和股价的关系,将在第二、三部分介绍。
本文第二部分即全文第三章,量化互联网媒体信息作为当今研究热点,本章将讲述对其如何进行量化。首先对媒体不同维度信息进行向量化,然后通过高阶张量对媒体信息空间进行表示,用张量的不同阶代表不同维度信息的特征向量。随后由张量的Tucker分解对张量媒体信息空间进行融合,保留和发现不同维度信息间的关系。所以本部分介绍了不同维度信息的向量化处理,以及媒体信息的张量空间的构造和融合。
本文第三部分是全文的重点,介绍本文的核心算法——张量监督学习算法。在第四章中,从张量监督学习算法的目标函数说起,通过对目标函数的求解过程来介绍算法的求解过程。其首先对张量降阶回归为向量,然后由支持向量机的求解理论进行求解。同时介绍在张量监督学习算法循环迭代求解过程中,如何对张量进行再次融合。最后对该算法的收敛性进行了证明。
本文第四部分即全文第五章为实验设计部分。介绍了实验设计的详细信息,如数据的来源、训练数据以及测试数据构成等。接着设计了两组实验:1)将原始数据直接拼接为超级向量和构造成张量进行对比,分析用向量和张量表示股票信息的差异;2)将进行张量分解融合效果的对比分析,了解股票不同维度信息间的相互传递、补充对最后股票预测的影响。
最后一部分本文第六章是对全文研究工作的总结和未来研究工作的展望。总结了本文提出的基于张量理论的监督式学习算法在互联网媒体与股市上的研究,针对不足之处提出了以后研究的方向。
本研究将张量理论、机器学习算法和股票市场相关理论相融合,实现了基于向量的机器学习算法向张量的拓展,同时通过张量对媒体信息空间的表示,分析了不同维度的信息间的相互作用,更全面的反应互联网媒体信息对股票市场的影响,从而探析信息对股票市场波动的驱动作用,并为量化社会科学研究探索了一个新途径。
本文第一部分包括第一、二章,其对研究背景、目的,国内外研究现状,相关理论和基础做简单介绍。股票价格与互联网媒体信息的关系一直是经济学、行为金融学的研究热点。随着信息技术,特别是计算机技术如数据挖掘技术跨领域的应用,使得互联网信息和股票价格相关关系的研究大量出现,如Tetlock的研究证明了信息对股票市场的影响。那如何更加全面的表示互联网媒体不同维度的信息和之间的相互关系,以及媒体信息和股价的关系,将在第二、三部分介绍。
本文第二部分即全文第三章,量化互联网媒体信息作为当今研究热点,本章将讲述对其如何进行量化。首先对媒体不同维度信息进行向量化,然后通过高阶张量对媒体信息空间进行表示,用张量的不同阶代表不同维度信息的特征向量。随后由张量的Tucker分解对张量媒体信息空间进行融合,保留和发现不同维度信息间的关系。所以本部分介绍了不同维度信息的向量化处理,以及媒体信息的张量空间的构造和融合。
本文第三部分是全文的重点,介绍本文的核心算法——张量监督学习算法。在第四章中,从张量监督学习算法的目标函数说起,通过对目标函数的求解过程来介绍算法的求解过程。其首先对张量降阶回归为向量,然后由支持向量机的求解理论进行求解。同时介绍在张量监督学习算法循环迭代求解过程中,如何对张量进行再次融合。最后对该算法的收敛性进行了证明。
本文第四部分即全文第五章为实验设计部分。介绍了实验设计的详细信息,如数据的来源、训练数据以及测试数据构成等。接着设计了两组实验:1)将原始数据直接拼接为超级向量和构造成张量进行对比,分析用向量和张量表示股票信息的差异;2)将进行张量分解融合效果的对比分析,了解股票不同维度信息间的相互传递、补充对最后股票预测的影响。
最后一部分本文第六章是对全文研究工作的总结和未来研究工作的展望。总结了本文提出的基于张量理论的监督式学习算法在互联网媒体与股市上的研究,针对不足之处提出了以后研究的方向。