基于特征扩展的文本挖掘技术研究与应用

来源 :对外经济贸易大学 | 被引量 : 0次 | 上传用户:liongliong465
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,传统预测指标体系与预测方法已逐渐不能满足实际预测工作之需。本文将大数据技术和机器学习与宏观经济指标相结合,对宏观经济预测预判进行了探索性研究,在一定程度上拓展了机器学习和大数据技术在宏观经济分析中的应用。
  本文创新采用交互式“半监督”的TF-IDF关键词提取算法分析处理大量与消费者信心相关的新闻文本数据,该技术支持“人机交互式”地对文本主题、类别、关键词和样本之间的关系进行学习和摆布,从而实现对非结构化信息的结构化转换和提炼,实现对原始种子关键词汇的特征扩展。同时,采用BERT(Bidirectional Encoder Representations from Transformers)新型语言表征模型,在已有关键种子词基础上,匹配中文全量词库,深入挖掘与消费者信心相关的词汇,进一步扩充预测指标体系。
  本文研究表明:(1)相比于传统的关键词提取算法,交互式TF-IDF算法不仅无需借助语料库实现特征扩展,而且还允许种子词的输入,在42个种子关键词的基础上,深入挖掘文本,扩充的关键词汇准确度更高,解释性更好;(2)相比于传统语言模型,BERT语言模型能更彻底地捕捉语句中的双向关系,通过大规模语料预训练后,可有效适用于多种自然语言处理任务,极大地缓解了特定NLP任务对模型结构的依赖。在宏观经济指标预测的关键词特征扩展任务中,仅添加一个额外的Softmax输出层对之进行微调,即可实现特征扩展。
其他文献
学位
This paper investigates the determinants of firm’s performance with evidence of the listed firms in Kenya.I used annual data for the period2013–2018.Various econometric procedures such as Random Effec
学位
This study aims to identify the opportunities and challenges facing the P2P lending industry in Indonesia,with regards to the gaps in the market created by lack of financial access to banks,as well as
学位
Financial development plays one of the most important roles in economic development of each country.This study takes Asian countries as research objects and examines the relationship between financial
学位
为研究“房住不炒”对住房市场交易量的影响和作用渠道。本文先使用包含预期的供求函数推导出:因住房市场供求双方持有住房的成本不同,住房交易量与预期价格呈现同向变动的假设;再使用房价租金比作为预期价格指标推导出证明“房住不炒”政策可以通过影响适应性预期的方式对住房交易量产生影响的方法。本文使用了多元回归分析法和断点回归设计研究了具有代表性的24个城市2014-2018年的住房交易量指数月度数据,通过实证
如今,越来越多的人在网上发表言论,文本数据急剧增加,这些文本信息洪流中包含着大量的情感信息。线上对话可以丰富平台内容,但是也存在着危险,如人身攻击、网络骚扰和欺凌等行为。平台提供商为了平台的运营和发展,必须营造在线对话良好氛围。识别不同文本情感等级,从而可以根据文本的情感评分对发表负面言论的用户进行警告,禁言或封号,对发表正向言论的用户进行奖励等。  现有的文本情感分析方法主要有基于规则的方法和机
学位
互联网的兴起带来了一个数据爆炸、信息爆炸的时代,人们的生活急需要从海量的信息中提取到自己所需的信息,各种不同的推荐系统应运而生。随着数据信息的指数型增长,数据类别的变化、数据的可获取性和数据的多样性都给推荐算法的精准性带来了很大的挑战,传统的协同过滤算法在当下个性化的需求面前,其准确性显得有很大不足。如何更好的利用数据资产对推荐算法进行改进是当下需要被重点思考的课题。  本文基于公开的数据集Mov
学位
分类问题在遗传标记、肿瘤分类、微阵列数据分析、生物信息学和机器学习等领域都有着广泛的应用。随着数据存储能力与计算能力的提高,高维变量的出现给这些领域带来了新的挑战。为了更好的解释高维分类问题,提高分类预测能力,变量筛选和降维起着重要的基础性作用。  在分类建模之前,除了进行主效应的选择,考虑到单个主效应的影响并不足以刻画其与响应变量之间的关系,本文重点进行了交互效应的筛选方法的研究,并创新性地提出
学位
随着个人消费信贷的不断发展,信用评分技术逐渐用于信用卡发放、房贷、车贷等消费领域,以便评估信贷申请人在未来违约的可能性。如何科学有效地建立信用评分模型,使金融机构能够快速准确地做出审批决策,是金融业界和学术界的一个焦点。目前,已有众多方法应用到信用评分领域中,但这些研究的数据集通常只包括被接受的客户信息,而占比约九成的被拒绝的客户信息由于缺乏后续信用表现记录被忽视。如果仅使用接受样本的信息来衡量未
学位
随着中国经济的发展,中国的金融市场得到了长足的进步。上证券交易所也仅仅只有30年的历史,与欧美相比是整整几百年的差距。虽然则意味这我们还不够成熟与完善,但这正也是我国金融市场发展的潜力所在。研究股票市场的价格变动将是大有价值的。  本文总结了以往学者对股票价格变动预测的方法与模型,从最初的时间序列模型到最近几年大火的神经网络。最初的时间序列模型就是简单的将股票的各种特征输入模型,然后进行回归分析。
学位