基于文本挖掘的股市舆情分析方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:kf3567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
股票市场的表现往往是一个国家经济发展的“晴雨表”。中国改革开放四十年来,资本市场飞速发展,砥砺奋进,已经连续多年稳居全球第二大资本市场。A股已经成为全球资本配置的重要组成部分。然而与一些发达国家股市不同,中国股市的投资者以散户为主,散户以往只能依靠新闻报道、分析报告或者一些小道消息来分析和买卖股票,缺少对市场讨论的参与。而随着近年来网络技术,尤其是移动终端的快速发展,越来越多的股民喜欢通过网络平台发表自己对股票的看法。海量的股评中所包含的情感倾向可能会对股市产生某种舆论趋势倾向的影响。因此,挖掘主流网络平台上的股民评论,对其进行情感分析,从而构建情感指数,研究其与实际大盘指数之间的相关性是很有意义的。本文首先研究投资者情绪对股市走势的影响,对相关技术理论进行阐述,然后利用Fiddler http协议调试代理工具辅助股评数据获取工作。移动端抓取到的数据一般都是JSON格式,与传统PC抓取的HTML格式数据相比,在数据获取与解析速度上有很大的优势。本文选取了A股具有代表性的沪深300指数共300只代表性股票,在当今国内最大财经门户网站平台——东方财富上,三天内抓取了这些股票的近200万条评论,大大提高了数据抓取效率。在此基础之上,增加股评置信度参数对LDA模型进行改进,实现对与股票主题无关数据的预处理,经实验验证,数据过滤效果比改进前有明显改善。朴素贝叶斯分类算法非常适合于事物正负两级分类,然而语料库的完善与否决定着分类的准确率的高低。本文针对股票领域,基于N-GRAM技术对3万条股票相关文本训练集进行分词处理和新词识别,再利用word2vec技术在HowNet情感词库基础之上进行股票领域情感词汇扩充,最终创建出股票领域专用词典。本文采用了一种基于改进的LDA模型的数据预处理模型,对评论数据进行过滤,过滤准确率近90%,有效地去除了无关评论数据。进而利用朴素贝叶斯机器学习方法,对股评测试集进行情感分类。本文在构建情感指数时引入移动平均模型,将时间因素更好地融入到情感指数构建过程中,最终将情感指数与股票波动进行相关性分析。经实验验证,通过训练集构造出来的分类器能够很好地对股评情感倾向性进行分类,并且情感指数与实际股票波动拟合效果很好。可见,构建股票领域情感词库以及引用移动平均模型构建情感指数对情感分类效果起到显著作用。
其他文献
语用学原理是指导语言使用的一般原则,因此也适用于商务信函写作。本文运用语用学原理中的合作原则和礼貌原则分析了剑桥商务英语写作的特点,旨在帮助学生理解和把握剑桥商务
采用高效液相色谱法,测定25%噻虫嗪水分散粒剂的含量,使用C18色谱柱,以甲醇+水=(60+40)为流动相,选择263nm为检测波长进行检测;其平均标准偏差为0.12865,变异系数为0.500%,相
<正>浙江嘉兴南湖的红船,见证了中国历史上开天辟地的大事变。正是在这条红船上,中国共产党第一次全国代表大会胜利闭幕,庄严宣告了中国共产党的诞生。96年来,我们党从红船启
目的探讨真菌性鼻窦炎(FRS)大鼠鼻窦黏膜组织Maspin、IKKα表达水平及意义。方法 40只SD级大鼠建立真菌性鼻窦炎模型,按照随机数字表法分为鼻塞组、FRS组、免疫抑制剂组、侵
<正>党的十八大报告明确指出要深化教育领域综合改革、推动高等教育的内涵式发展,说明综合改革和内涵发展正在成为办好人民满意的高等教育的基本途径。十八大报告提出的"全面
红椰子是极具观赏价值的热带珍稀棕榈,也是最受欢迎棕榈植物之一。因其繁殖、栽培、管理困难等技术难题,通过多年的栽培试种,红椰子的形态特征、生态习性、繁殖、栽培技术及
目的研究新媒介背景下老字号品牌视觉形象的创新设计问题。方法针对辽宁老字号企业进行实地调研和对比分析,发现老字号企业品牌现状的共性及个案问题,并依托新媒介手段提出相
信息技术的大发展,互联网的日益普及,深刻影响人们的生活方式,也推动了人类政治民主进程的形式和内容发生变革。这种影响是全方位的,本文将只论述互联网对民主政治发展影响的
“红层”基岩是广州地区较典型的基岩类型之一,不同地质年代的“红层”其组成及性质也有所区别。这类基岩往往存在软弱夹层,且具有遇水易软化、失水易干裂的特征。在此类地层
对信阳群体种、白毫早、龙井43、福鼎大白茶、乌牛早、迎霜和安吉白茶7个茶树品种制成的信阳毛尖茶的感官品质和主要化学成分进行了初步研究。结果表明,乌牛早和信阳群体种的