【摘 要】
:
在电商领域,商品的评论信息无论对于消费者还是营销者都具有非常重要的参考意义,随着电商平台技术的发展,评论信息规模不断扩大的同时,信息类别也呈现多样化的特征,图文混合数据已成为电商评论的重要表现形式。但是在中文评论领域,目前没有一个比较成熟的公开数据集来满足深度学习网络模型训练要求,另外图像和文本的数据挖掘方法已经比较成熟,而如何将两种单模态数据挖掘方法进行有效融合是当前研究的热点问题。为了能够挖掘
论文部分内容阅读
在电商领域,商品的评论信息无论对于消费者还是营销者都具有非常重要的参考意义,随着电商平台技术的发展,评论信息规模不断扩大的同时,信息类别也呈现多样化的特征,图文混合数据已成为电商评论的重要表现形式。但是在中文评论领域,目前没有一个比较成熟的公开数据集来满足深度学习网络模型训练要求,另外图像和文本的数据挖掘方法已经比较成熟,而如何将两种单模态数据挖掘方法进行有效融合是当前研究的热点问题。为了能够挖掘到电商图文评论的潜在关系、模式和规律,本文主要进行了以下的研究:首先分析了图文混合数据挖掘的可行性并设计了图文混合数据挖掘的基本流程,然后在此基础上构建了电商图文评论数据挖掘模型,模型主要分为图文评论数据的获取、预处理、特征抽取以及融合四个阶段。获取和预处理阶段分别对图文评论数据进行了爬取和筛选,针对数据规模较小、类别不平衡的问题,提出了交叉式数据增广方法,经过不同比例的增广后,有效图文评论数据达到148470条,为后续的信息处理奠定了数据基础。特征抽取和融合阶段实现了电商图文评论信息的融合,提出了三种不同的融合方案:基于自编码器的数据层融合方案、基于相关系数的特征层融合方案以及基于集成学习的决策层融合方案,其中基于自编码的数据层融合方案,通过引入自编码网络结构,构建损失函数来实现数据层的图文融合。基于相关系数的特征层融合方案计算图文特征之间的相关系数来获取相关性更强的图文抽象信息,实现了图文信息在特征层更加有效的融合。基于集成学习的决策层融合方案通过对不同抽取模型和不同融合模型结果的两次集成,获取最优的决策结果。最后,为了验证融合模型的有效性设计了两组对比实验,第一组对比实验以情感分析为实验任务,实验结果显示基于相关系数的特征层融合方案的准确率最高,达到了97.4%,相对于单文本和单图像情况下准确率分别提高了3.2%和67%,第二组对比实验以商品类型分类为实验任务,实验结果显示基于相关系数的特征层融合方案的准确率最高,达到96.3%,相对比单文本和单图像情况下准确率分别提高了2.6%和46%,两组实验结果验证了融合模型的有效性。
其他文献
房地产行业因其同时具备房和地两大物质基础而一直牢牢占据着各国经济发展的核心地位,由于该行业具备为整个社会的经济活动提供物质空间的能力,所以它的作用不仅局限于为人民提供基础的住房条件,同时还可以助力其他行业部门的发展,甚至说拉动整个国家经济的发展,是当之无愧的国之支柱产业。然而,房地产行业的重要经济地位和其自身所担负的经济风险也是成正比的。房地产开发企业在项目开发过程的前、中、后期都需要进行大量的资
随着中国经济的迅速增长和城镇化进程的不断加快,各城市为了缓解公共交通拥堵问题而大力投入并建设城市轨道交通网络。地铁由于具备运量大、速度快等明显优势,已成为现代城市居民出行的首选方式之一,与此同时也增加了地铁系统高峰期的客流压力并对运营管理提出了新的挑战。地铁短时客流的准确预测,不仅有助于为运营管理者提供实时准确的客流变化信息,快速实施交通控制、调整列车运行计划并优化行车间隔;也可以在举办大型活动或
随着经济全球化的程度日益加深,人类通过海上通道进行交流的频次越来越高。然而如渊的深海一直是人类海上活动绕不开的一个领域,深海复杂多变的海洋环境为人类的海上活动带来了较大的风险,深海突发事件的发生通常会造成巨大的生命和财产损失。因此,深海突发事件的快速应急响应对于保障海上人命和财产安全至关重要,而科学有效的辅助决策方法对于提高深海应急响应效率具有十分重要的意义。本文以深海突发事件作为研究对象,基于案
随着全球新能源汽车发展进入爆发期,越来越多的新能源汽车企业意识到销量预测的重要性,对销量进行正确预测不但能帮助企业降低生产线的闲置率,合理规划产能满足市场对热销车型的需求,更能帮助企业降本增效,增强响应市场的速度,保持整个企业管理的竞争力。本文通过分析新能源汽车销量预测的几个重要问题,发现在以往的研究中模型的构建以单一算法为主,难以兼顾预测的准确性和稳健性。此外,发现预测人员需要掌握模型构建流程和
新中国成立后,尤其是改革开放的四十多年,我国实现了从农业大国到工业大国的历史性转变,成为世界第一工业大国。然而,中国工业经济发展主要是以生产要素的投入与扩张为特征的粗放型增长模式,这也导致了资源浪费和环境污染等问题。在中国由工业大国向工业强国的转变过程中,如何正确地利用各种环保手段促进工业的绿色发展,是当前我国工业化进程中值得关注和解决的问题。当前我国通过环境规制来实现工业绿色转型,单从污染物减排
篆书书体在整个书法脉络中有其自身的发展规律和脉络,每个时代的书家都在不停的继承中寻求突破。书家所处的社会时代和审美观念以及知识储备的不同,会直接影响到其研究与创作的结果。笔者以玉箸篆为阐发对象,通过了解发现当今学术界对玉著篆的研究可分为三种情况:其一,是对历代篆书名家风格的研究;其二,是对某一地域或某一流派的研究;其三,是对某一篆刻现象成因的研究。而针对某一技法语言研究的文章较少,且不全面。对于这
随着工业制造企业的迅猛发展,大宗货物的运输需求日益增长。大宗货物的生产和运输有其特殊性,在生产方面,主要体现在大宗货物一次生产所产生的货物数量巨大、生产周期不确定,在运输方面只要能够将货物如期运达即可,而对每次运输的批次没严格限定,从运输成本方面考虑,通常考虑采用水运方案。因此,鉴于大宗货物运输的特性,设计良好的大宗货物水运方案,对提高物流效率,节约物流成本有重要意义。本文以代表大宗货物的某大型钢
物流业身为经济系统中的重要基础性、战略性地位的产业,促进其发展质量提升是降低实体经济尤其是制造业、农业等企业物流成本费用水平、激发实体经济活力的必然要求,是推进供给侧结构性改革、提高经济社会运行效率、激发经济发展内生动能的迫切要求,是建设社会主义现代化经济体系、促进整个国民经济高质量高水平发展的内在需要。当前,中国物流业已经经历过了艰难漫长的成长期,并正在以较高水平增速步入成熟期,逐步实现跨越式发
随着我国水路运输业持续稳定地发展,水域中航行的船舶数量逐渐增多,航线通航密度也不断增大。这直接导致我国水上交通安全的风险日益攀升,给人们的生命和财产安全构成了巨大的威胁,对社会和经济的发展产生了一定的制约作用。如何精准高效地分析预测水上交通事故、提升水上交通安全等级成为近些年的研究热点。然而,因存在水上交通事故信息库不完备的桎梏,当前相关研究在获取水上交通事故数据时需耗费大量精力,一定程度上阻碍了
近年来,债券市场成为中国金融市场体系中最具活力的部分,在提高市场融资效率、服务实体经济方面发挥了重要作用。信用债作为企业,特别是非上市企业融资的关键渠道之一,已成为我国债券市场的重要组成部分,投资者队伍不断壮大。然而与信用债市场隆隆日上相伴而来的,是违约乱象的频生。因此构建较为完善的发债主体信用风险评价体系对于规避信用风险和经济损失、促进金融市场稳健发展不可或缺。本文通过分析发债企业信用风险评价模