论文部分内容阅读
在传统的股票交易软件中,用户仅仅可以获得实时市场行情数据以及独立于各个股票之间的关于股票股评信息。用户很难从这些信息中发现当前市场的热点,这些信息也难以和用户在股票交易过程中考虑的股票的新闻、公告等文本数据相关联。同时,这种传统的分析股票的方式基本是以股票之间无关联的思维方式进行分析的。然而,A股市场的股票之间并不是孤立的,在涨跌变化时,股票间的涨跌行为多表现出了一定的关联性。并且这些群体的涨跌行为多和股票行情外部的文本信息有着极大的关联性。本系统的目的就是通过数据挖掘等技术对股票关联性进行分析,找到股票之间的关联关系,进而结合股票之间的关联关系和市场行情数据对A股市场进行更加详尽的分析。同时利用文本分析技术将新闻、公告等文本数据和分析结果进行进一步对应。协助用户找到涨跌的原因。本系统主要基于数据挖据中相似性计算,关联分析,聚类技术和自然语言处理中文本摘要,文本生成等技术。本系统为了解决股票之间孤立的问题,首先提出了标签的概念,为股票进行细粒度,层次化的划分。然后,分别建立股票,标签之间的关联关系。并且以股票,标签之间的关联关系为基础,结合市场行情数据,用多影响因素的思路,以整体性和关联性的角度为股票市场提供分析。为了测试股票关系正确性和分析结果的可靠性,本文设计了相应的实验,对结果进行验证。实验结果表明,本文提出的方法具有一定的准确性和较强的可解释性。为了让分析结果更多的和股票市场外部的新闻、公告等数据相关联。本文对分析结果关联的新闻和公告数据进行了句子级别的摘要,挑选出和分析结果关联的关键文本信息。最后为了分析结果更好的展示给用户,本文对分析结果以网络图的方式进行了展示,并且利用模板填充的文本生成技术对分析结果进行了文字性的说明。本文完成了整个系统的搭建工作,使本文的分析工作具有更好的实用性。本文将数据挖掘技术和自然语言处理技术应用到了股市行情分析当中,探索了数据挖掘和自然语言处理技术在股市行情分析中的可行性。本文提出了具有整体性和关联性的股市分析方法,创新性的将股市的影响因素表现为紧密联系的网络图。本文的工作为股市分析提供了新的思路。