论文部分内容阅读
我国资本市场不断壮大和成熟,但还存在个人投资者资金量小、专业能力不强和个人情绪影响投资决策等情况。一些学者运用机器学习和深度学习等文本情感分析技术研究互联网上用户的证券评论情感倾向来了解投资者情绪,取得了不少成果,但是存在研究分析的样本量偏少、未将最新的文本情感分析方法运用于证券评论情感分析领域等情况。本文收集整理了一些东方财富股吧的上证指数评论,扩大研究样本量,同时结合近期文本情感分析研究成果,构建了三级证券评论情感词典,提取评论情感特征融入证券评论情感分析研究,结合词向量和词性向量构建了多特征融合证券评论情感分析模型MF~2SCSAM,并应用于构建投资者情绪指数,进一步丰富了证券评论情感分析研究。开展的具体工作有如下四点。(1)构建证券评论语料库。本文爬取了东方财富股吧中上证指数2018年8月1日—2019年7月31日的评论,合计96.83万条,作为原始语料数据;之后进行了清洗整理;然后运用jieba分词工具对整理后的评论数据进行分词和去停用词;选取词汇数≤32个词汇的评论,合计86.06万条,构建证券评论语料库。在证券评论语料库中选取3.01万条评论手工进行三元分类标注:call看涨情绪、neutral中性情绪和pull看跌情绪,作为实验数据集。(2)构建证券评论情感词典。本文收集证券评论语料库中表情符,并进行分类标注,作为证券评论表情词汇,称之为第一级证券评论情感词汇;收集整理证券领域专业情感词汇,并进行分类标注,作为证券领域专业情感词汇,称之为第二级证券评论情感词汇;选取三个常用情感词典,进行汇总去重后作为基础情感词汇,称之为第三级证券评论情感词汇。上述三个级别的证券评论情感词汇组成证券评论情感词典。(3)构建多特征融合证券评论情感分析模型MF~2SCSAM。首先,运用Google公司开源Word2Vec工具训练证券评论的词向量;筛选三个级别证券评论情感词汇中具有明显情感倾向的情感词汇为种子情感词汇,分别计算各级证券评论情感词汇词向量与各自种子情感词汇词向量的平均余弦相似度来构建评论情感向量;运用jieba分词工具标注证券评论词性特征,以随机初始化的方式得到词性向量;然后,证券评论中的情感向量、词向量和词性向量分别输入BiGRU模型进行训练,运用注意力机制关注相对重要的部分特征,输入softmax函数进行类别判断。为了验证MF~2SCSAM模型的有效性,将MF~2SCSAM模型与CNN、BiRNN和BiLSTM模型及后三类模型融合特征向量的模型分别进行实验评估,此外还与BiGRU模型及其不同方式融合评论特征向量的模型进行实验评估,验证了MF~2SCSAM模型的效果最优。(4)构建了上证指数情绪指数。运用MF~2SCSAM模型分析了2018年8月1日—2019年7月31日的上证指数证券评论,构建了相应一年的上证指数情绪指数。