论文部分内容阅读
近年来,随着中国经济的快速发展,中国的股票市场发展也呈现迅猛之势。中国股市已拥有2467家上市公司,沪深股市总市值23.5万亿,股民数量已达到1.6亿,中国股市已经成为全球市值的第三大市场。对股民而言,互联网财经类消息与他们的利益息息相关。微博作为一种新型的社交工具,由于其简短写作,便捷发布,实时交互的特点深受大众欢迎,微博已成为国内第二大网络社交媒介,也是第二大舆情源头。面向财经类的微博信息分析,关注公众对财经市场的反应——情感,可以为市场预测提供参考,为财经行业从业人员和投资者服务。因此,以财经领域作为研究实例,分析微博舆情有现实意义和应用价值。在针对财经微博的情感态度分析研究中,构建了一个完整的分类模型,主要从规范化、分类、命名实体识别、情感分析、趋势预测等方面开展研究。但是本文将重心放在情感分析上,情感倾向分类也被称为观点挖掘(Opinion Mining)或者情感极性分类,可以理解为用户对某客体表达自身观点所持的态度是支持、反对、中立,也就是常说的正面情感、负面情感、中性情感。在论文的具体实施过程中,研究的主要内容包括以下几部分:(1)研究了公司组织机构名称全称及简称的语法构成、语义特点及组织规律,并结合金融领域特有的情感词,使用情感倾向点互信息算法(SO-PMI)构建了金融领域词典。(2)分析研究中文微博的特点,在结合网络语言及金融语言特点的基础上,构建了网络用语词典和否定词、程度副词及表情符词典,对深入研究情感态度挖掘具有重要帮助。(3)提出了情感加权计算方法,将构建的各类词典应用到情感分类之中,实现情感分类值的量化计算。最后通过新浪API获取一段时间内含有公司名称的财经微博,在经过预处理、分词和特征选择之后,用词典的情感分类方法对其进行分类。实验验证了金融领域词典、网络词典、和表情词典的重要性,并将各种词典都完备下的实验数据和实际股市走向进行对比,说明实验数据在实际生活中具有现实意义,通过进一步研究可运用于股票投资。