基于主题模型与概念扩充的短文本分类研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zxc00663340
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网领域的技术进步与飞速发展,数据的存在形式呈现多样化,其中文本数据作为最常见的数据形式之一,包含着人们传递和接收的信息。在日常生活中,短文本形式多样且应用广泛,常出现于标题分类和舆情分析等场景。短文本分类是自然语言处理中十分重要的任务之一,作为典型短文本形式之一的标题型短文本,其特点在于篇幅极短,但通常是对应全文的总结,对这种标题型短文本数据分类可以帮助人们高效率地获取短文本信息并快速理解文本内容,从而实现信息的再加工。但是由于短文本词汇非常少,将传统的长文本处理方法直接应用到高度稀疏的短文本特征向量上,难以取得较为理想的结果。为了能提高短文本分类效果,本文根据标题型短文本信息量不够丰富的难点,对该类文本数据进行特征扩充。在特征扩充过程中,由于短文本主题分散,已有文献的LDA词扩充带来的分类效果提升有限,因此本文提出的解决方法是基于主题模型和知识图谱对短文本进行扩充,并结合词向量模型对扩充后的短文本进行文本表示与分类。该方法首先利用外部语料库训练LDA主题模型和FastText词向量模型,再基于训练好的LDA主题模型构建包含类别信息的核心主题集,从而在主题层面下获得主题扩充词,同时基于知识图谱创新性地使用修正TF-IDF和卡方统计量进行两阶段筛选,构建包含类别信息的核心概念词集,从而在概念层面下获得概念扩充词。这些扩充词含有主题信息和概念信息,一定程度上可以丰富短文本的信息且具有较强的类别分辨能力。再利用词向量模型对扩充后的文本进行向量表示,最后建立分类模型并进行评估。实验证明,本文提出的方法在标题型的短文本分类任务上获得了较好的分类效果,说明本文基于主题模型和知识图谱的词扩充方式为短文本增加了更有用的信息,从而帮助短文本的分类。
其他文献
融资协议具有不完全性,其条款内容注重反映各方当事人自愿达成的风险分配安排。对赌协议是商事交易中被广泛运用的一类融资模式,因其运用日益频繁、纠纷逐渐增多,而产生了对其单独进行规制的必要性。对赌协议的法律适用不但会影响个案中投、融资双方及利害关系人的利益,还可能对资本市场产生深远影响。我国现有的立法及司法观点尚存一些不足,在参考、吸取来自其他法域的经验的基础上,可进行改进和完善。除引言、结论以外,本文
学位
《海南自由贸易港建设总体方案》与《中华人民共和国海南自由贸易港法(草案)》都分别提出,加快发展海南自由贸易港,实现国际资本在港内外的自由便捷流通。当前,借助上海建立的自由贸易账户体系运行多年的经验,海南自由贸易港的自由贸易账户得以快速铺开,但是其监管主体和风控机制等都与未来海南自由贸易港的定位不相匹配。同时,海南相关行政机构分块监管,各自为政,本外币跨境流动监管存在两套路径,相关的立法也存在真空和
学位
国内外关于基金经理的研究相当丰富,从学历、性别、专业度等背景指标到风格分析评价指标如风格系数、换手率,较为新颖的指标如过度自信等对基金经理进行分析,但针对基金经理发布的文本数据通过基于自然语言处理技术进行分析的文献相对较少,同时相关的专业领域词典也相对稀缺。本文选取中国09年至19年全市场基金定期报告中的市场展望文本数据共计30万条,综合使用SO-PMI、Word2vec算法和人工筛选等方法构建针
学位
近年来,数字经济在全球范围内异军突起,已经深刻辐射到全球经济发展的多个层面,其以独有的互联网发展模式形塑了国际经济发展的新样态,也在全球范围内掀起了税收管辖权再分配与国际税制实质性改革的狂澜。由于始终未解决相应税收规则缺位的难题,如何应对经济数字化带来的国际税收挑战至今仍然是国际社会关注与讨论的焦点。为此,OECD于2019年提出建立一个关于新的联结度与利润分配规则的“统一方法”,以此作为划分国际
学位
目前,银行在开发的信用评分模型时,通常只从被批准的申请者里面获取训练样本,而把贷款审批流程中被拒绝的申请者排除在外。然而,在实际应用中,信用评分模型面对的是全体消费信贷申请者,这一流程会导致获取的样本与真实总体之间存在样本偏差,导致有偏的参数估计。因此必须要考虑拒绝推断,将拒绝样本纳入到评分模型的建立流程中来校正这一偏差,进一步提升评分模型的泛化性能。在进行拒绝推断时,拒绝样本中存在着被错误分类为
学位
分时租赁汽车作为现代交通工具在共享经济领域异军突起的出行新选择,一经问世便广受消费者的青睐与喜爱。现代共享经济模式的核心是所有权与使用权的“两权分置”,分时租赁汽车也不例外。分时租赁汽车平台作为汽车的所有人或管理人将车辆以短时租赁的方式出租给账号注册人,由后者行使“短时”使用权以供运行之用。分时租赁汽车作为新能源汽车的典范,在一定程度上契合我国的绿色发展理念,受到了国家的重视与扶持,国内分时租赁汽
学位
在金融市场极为动荡的2020年,比特币价格创下历史新高,年内涨幅超过三倍,远远超出传统金融资产的回报率。它高回报、高波动的特点使其成为市场关注的重点。研究比特币和传统金融资产的波动溢出效应,既可以增加对比特币市场的认知,也能对投资组合和风险管理提供有价值的信息。本文通过构建t分布下的六元BEKK-GARCH模型,对2013年至2020年比特币和股票、黄金、能源、美元指数、债券五种金融资产之间的波动
学位
T+1交收机制是我国区别于国际上其他资本市场的一个特殊之处。自该制度确立以来,对我国资本市场造成的影响究竟是利还是弊,一直是学术界与实务界关注的焦点。因此,在中国资本市场逐渐进步、日趋成熟的时代背景下,A股市场是否受到T+1机制掣肘是本文探究的重点。本文从理论上分析了 T+1交收机制下股票市场投资者买卖行为的不平衡性,该不平衡性将影响股票价格形成机制及资产流动性,进而影响我国A股市场的价格表现和资
学位
白酒是我国的重要产业,在经济与社会生活中,占有重要的地位。白酒的消费具有社交性和礼品性,使其具有独特的消费特性。白酒行业往往呈现出价越高越好卖的趋势,这在高端白酒中尤为明显。研究消费者对白酒的需求偏好,可以为企业抢占市场提供指引,也可以帮助市场管理部门进行有效的市场管理,促进白酒行业的健康发展。本文研究高端白酒的需求特性,包括以茅台、五粮液等为代表的优等高端白酒和以洋河、剑南春等为代表的次高端白酒
学位
配对交易通过价差均值回复特征赚取差价,其有效性得到国内外一致认可。对于配对交易,最重要的就是拟合两种资产的价差序列,判断价差序列是怎样波动的,从而能够提前预测价差的走势,做出套利行为。对价差序列的描述,一直以来国外学者做了大量的研究,反观国内对价差序列的描述还处于探索阶段,因此本文将重点研究国内股票的统计套利,探究股票资产间价差的波动形式,将统计套利策略应用于中国股票市场并探究其有效性。另一方面,
学位