论文部分内容阅读
西方发达国家的股票市场已经有200多年的发展历程,而中国股市仅有20多年的历史。由于中国股市的不成熟,市场还是围绕各种消息或者政策涨跌,单纯运用传统方法很难以掌握其运行规律,虽然在国内市场上有很多类型的股票查看和分析类软件,但是其设计理念都大同小异,基本上都是将各种信息数据通过图表及各种曲线的方式给用户进行展示,而且重点都在于基本面和技术面的分析,缺少针对中国A股市场上题材炒作现象进行分析的系统,而题材炒作在A股市场上体现为围绕各种热点概念的炒作,所以本文从基于人的行为角度出发对中国股票市场的热点概念进行了研究,并基于文本分析技术设计并实现了一个股市热点分析系统。本文所述的股市热点分析系统主要有四个主要功能:1)财经信息采集,主要是对系统需要分析的原始数据进行采集,采集的数据包括每日股票走势数据、财经信息数据、已有热点概念数据。2)热点识别及储存,针对信息采集模块取得的数据进行加工,包括:生成热点概念识别的训练模型、应用训练模型搜集热点概念、热点概念与股票建立异质网络关联。3)热度指数计算,热度指数计算依托热点识别及储存模块生成的热点概念与股票关联数据,热点概念与股票的关联形式为异质网络结构,计算后得出股票热度的时间序列数据,可以与股票价格或者股票所在行业价格指数进行关联分析4)数据展示,用于展示热点概念和股票的热门程度,运用HTML提供数据可视化分析,使得用户能够更好的把握股票市场动向。市场上的股票软件都是从基本面和技术面进行股票分析,消息面的内容都只是进行简单展示,而股市热点分析系统是从消息面入手进行股票分析,有效的补充了基本面分析和技术面分析的不足。热点概念识别是本文研究的重点。热点概念是指标识某一只股票利好或利空消息的关键字,也是一种股票市场上投资者的共识,其具有非常强大的广告效应。为了获取市场上最新的热点概念,本文在系统需求分析中提出了热点概念的识别方法,并提出了热点概念识别的三个重要步骤:边界模板识别、命名实体识别、搜索引擎消歧,在系统设计中分别进行了详细的算法设计及流程说明,最后在系统实现环节给出了关键部分算法的代码实现。本研究提出的热度指数计算是本文的另一个重点。热度指数是由本研究提出的通过热点概念计算出的某一只股票在某一段时期内财经信息中的权重值;用来说明某一只股票在当期舆论中处于热门或冷门地位。本研究借鉴Google搜索引擎PR值的概念和Page Rank算法的投票思想,提出了基于异质网络的股市热点挖掘算法SMHM(Stock Market Hotspot Mining),以贡献度来计算某只股票的热度指数。目前股市热点分析系统已经上线,良好运行了8个月,从前人工识别1个新产生的热点概念平均周期为4天,使用热点分析系统以后平均每日能够即时的从7270条新闻中新产生2个热点概念,很好的弥补了人工识别热点概念响应慢、周期长和覆盖面窄的缺点,同时每日平均对2830只股票进行热度指数计算,系统有效展示了股市中热点的分布,为用户进行消息面的股票市场分析做出了帮助。