基于主题模型的金融论坛文本挖掘

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:bingyuziqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
金融论坛,作为面向股民的平台,拥有着很高的热度。利用好金融论坛里面的文本信息,对投资具有很大的帮助。对于访问金融论坛的网民,最想要了解的信息主要有两点:近期讨论度比较高的事件以及网民对个股是看好还是看衰,本文将通过主题模型对这两种信息进行挖掘。本文的主要工作如下:对金融论坛新闻版块进行主题挖掘。论坛语料拥有回复短、水帖多等特点,传统的主题模型不适用于短文本,且没有考虑无意义文本,这使得传统主题模型在论坛语料上很难取得很好的效果。针对论坛语料的这些特点,本文提出了BBS-LDA主题模型,该模型以句子为单位采样主题,且每个帖子中的句子具有相同的主题分布,这样的做法考虑了论坛的结构特性,并且可以缓解单条回复字数少导致的稀疏性问题。同时,该模型引入了无意义主题和用户的信息,以缓解水帖对于主题挖掘的影响。通过真实语料进行对比实验,该主题模型能够提升主题关键词的质量。对金融论坛个股版块进行情感分析。论坛语料没有标注信息,很多有监督的分类方法需要人工标注,所以并不适用。本文通过Word2vec和SO-PMI构建了金融情感词典,并以此为监督信息使用情感主题混合模型对个股的帖子进行情感分析。通过在由人工标注的数据集上进行试验,证明了该方法的有效性。最后,基于以上研究开发了金融论坛文本分析系统。该系统能够通过爬虫自动爬取金融论坛文本信息,并通过算法处理展示给用户。除此之外,该系统还提供了一些接口供编辑调整主题权重,以提高系统的实用性。该系统的研发能够便于网民更加直观快速地获取金融论坛信息。
其他文献
北京燕莎奥特莱斯购物中心是中国第一家奥特菜斯业态的购物中心,于2002年12月18日开业。购物中心位于交通便利的北京市朝阳区东四环南路,由A、B、C三座组成,经营面积约10万平
我国政府推出政府质量奖制度,目的是为广大企业树立标杆,做到学有榜样,同时推行卓越绩效模式等先进的质量管理方法,引导广大企业追求卓越绩效。文章针对一些对政府质量奖产生
随着大数据、人工智能等先进的信息技术被广泛应用在医疗领域,医院信息管理系统在大数据时代的背景下也快速发展,高效的医院信息化智能管理能够提高医院的整体医疗水平,有效
提出了住宅工程质量管理改革的全生命周期思想,健全法制,建立质量保证体系和制约机制,评定指标体系以及提高技术标准等思想.
随着高新技术的不断发展,人类开发和利用海洋资源的装备也在不断更新,作为一种海洋探测平台,AUV的技术水平和功能也日趋成熟。然而,复杂的海洋调查和海洋工程任务要求AUV能够
专科护士(临床护理专家)(clinical nurse specialist,CNS)是"高级临床护士"(advanced practice nurse,APN)中的一种专业分工。是指那些在某个临床护理领域中具有博深理论知识、丰富临
自1993年以来,我们课题组完成了对濒危种M. hangchowensis的全面生态学研究,也针对物种濒危和杂草化的机理研究了另外两个种M. chinensis和M. dianthera对光和水资源的需求,已经
本文对刑事诉讼中法院无权变更指控罪名的观点进行商榷,提出了法院拥有变更指控罪名权的理由,对法院行使变更指挥罪名权的动作程序进行了设计,并对綦江虹桥垮塌案中法院变更指控
赵伯澐的丝绦,贺铸《玉钩环歌》中相互赠答的物色与诗情,会聚在《销夏图》里,虽然三者之间的联系是虚线,但它串连起来一脉不断的宋元士风,却是很真实,因为三事中的每一事,后面都有更
报纸
针对小微企业信用历史数据规模较小,而且类别不平衡问题较为严重,提出基于样本依赖代价矩阵的Smote XGboost-Bayes Minimum Risk(SXG-BMR)模型,对整体样本进行低倍率过采样,