【摘 要】
:
随着人工智能在人类自然语言中应用的越来越多,NLP(Natural Language Processing)在文本翻译、词性标注以及实体命名等领域中发挥着越来越重要作用。本论文的目的是在基于将计算机视觉中的图片信息和文本特征信息相融合的基础上对文本进行分类处理,主要研究工作由四个部分组成。针对多模态文本分类的词向量问题,设计了一种基于CBOW模型和Skip-Gram模型的SC词向量训练模型;分析已
论文部分内容阅读
随着人工智能在人类自然语言中应用的越来越多,NLP(Natural Language Processing)在文本翻译、词性标注以及实体命名等领域中发挥着越来越重要作用。本论文的目的是在基于将计算机视觉中的图片信息和文本特征信息相融合的基础上对文本进行分类处理,主要研究工作由四个部分组成。针对多模态文本分类的词向量问题,设计了一种基于CBOW模型和Skip-Gram模型的SC词向量训练模型;分析已有的文本分类模型方法的优缺点,将已有方法进行创新融合。为了提升文本分类的准确率,我们提出了融合图片特征和文本特征的多模态文本分类模型MTC(Multimodal Text Classification),我们用Word2vec的CBOW和Skip-Gram两种方法对印尼语新闻的标题进行词级的特征提取,同时也用统计学习的方法TF-IDF来提取标题的词频特征和逆文档频率,将提取到的所有标题特征进行加和得到标题的词级特征;再通过将Bi-LSTM与TextCNN结构相融合,得到新的网络结构,来提取标题句子级的特征;将得到的词级特征与句级特征通过融合,作为标题特征。再对新闻的正文部分Bi-LSTM模型提取句级特征,用Bi-LSTM Attention模型提取段落级的特征以及对整个文章的特征进行提取,最后将句级、段落级、全文特征信息进行融合,得到文本特征;对于图像的处理,利用残差网络提取视觉信息特征;最后,使用Attention机制对不同模态的信息进行融合,从而来对文本实现分类。为了证明我们提出方法的有效性与可行性,将本文提出的MTC模型与RNN与CNN模型对比分析,根据对比结果来看,我们提出的MTC模型对文本分类的准确率更高;最后,我们再对我们提出的文本与图像特征相融合的模型,与单用标题特征和单用文本特征对文本进行分类的方法进行对比,结合图片特征的模型对文本的分类效果比其它的模型分类更高效。
其他文献
极限理论问题是概率论与数理统计的一个重要研究方向.但是在许多现实问题中,绝大部分随机事件之间是并不存在独立关系,故相依性概念应运而生,其在我们的工作与生活中有着广泛的发展空间和应用前景,如风险评估、多元统计分析、统计决策、金融分析、气象预报、工程计算等方面.本文研究了ANA(Asymptotically Negatively Associated)随机变量加权和的完全收敛和完全矩收敛的相关问题.利
红外波段包含丰富的大气和地表信息,是气象和遥感领域的重要研究对象。大气透过率是求解红外辐射传输方程的核心,也是辐射传输模式准确模拟大气层顶辐射的关键。RTTOV(Radiative Transfer for TOVS)是我国GRAPES(Global/Regional Assimilation and Prediction Enhanced System)数值预报模式中使用的快速辐射传输模式,由欧
本研究旨在探讨中非经济货币共同体(CEMAC)货币政策传导机制,也是该地区最有效的传导渠道,旨在分析1996至2016年间货币政策决策对经济活动和价格的影响。鉴于中非经济和货币共同体成员国的经济依赖于石油收入;本文还将分析石油价格波动对中非经济货币共同体(CEMAC)的影响。为了实现研究目标,文章对中非经济货币共同体六个国家的总体数据采用了面板向量自回归(PVAR)模型估计。模型的冲击识别受到Ho
近年来,上市公司变更事务所的情况愈来愈普遍,审计意见的购买、财务困境、意见分歧、降低成本等因素都可能导致变更,事务所变更可能意味着上市公司的会计信息质量存在问题。证券分析师是资本市场上专业的信息使用者和解读者,他们通过分析包括会计信息在内的上市公司相关信息,发布盈利预测报告,帮助投资者进行决策。事务所变更背后隐含的信息风险可能会影响分析师的信息分析和判断。因此,分析师如何解读事务所变更这一信号,事
现代社会中,制冷技术存在于生产生活的方方面面。由于传统的气体压缩制冷技术难以满足现代节能环保的需求,亟需发展新型绿色制冷技术。磁制冷技术以其绿色环保、能量利用率高
近年来,随着软件工程的发展,软件系统越来越复杂,软件自承认技术债受到了工业界和学术界的极大关注。所谓软件自承认技术债是指在整个软件开发生命周期中,开发者为了追求项目短期利益,可能会有意选择捷径尽快完成代码实现。这种折中办法会导致软件开发人员提交不完善的、需要返工的、产生错误的代码,或者只是临时的解决方法。经过多年的研究,研究人员已经提出一些识别软件自承认技术债的模式和算法,但是部分区分模式是手工提
众所周知,许多同调性质在环的变化下得以保留,特别是优越扩张和Frobe-nius扩张.在这篇文章中,我们主要考虑模的GC-投射性,GC-内射性,Ding投射性以及FP-内射性在可分Frobenius扩张下的一些同调不变性.下面是本文的主要结构:第一章,我们介绍了研究的背景和意义,然后给出了本文后面所要用到的结论作为预备知识.第二章,我们研究了可分Frobenius扩张下的GC-投射模.证明了在可分
2018年两会中指出要稳步推进金融市场开放,健全和强化对影子银行的监管。现阶段银行业的影子银行在我国的增长速度十分迅猛,由于影子银行的监管套利性,它的过度扩张势必会对银行体系的稳定性产生威胁,所以有必要寻求有效的监管途径,加强对银行业影子银行的监管。关于影子银行的监管,在以往研究中主要是从宏观政策的角度提出建议,而从注册会计师审计这一视角出发研究注册会计师审计发挥金融监管功能的实证研究较少。所以,
1990年早期,禽流感病毒(Avian influenza virus,AIV)在意大利首次确认,而今该病毒已经在世界各国流行分布。该病毒主要感染各种家禽、水禽和候鸟,同时也在人类和低等哺乳动物
随着计算机技术的快速发展和进步,软件被越来越多地应用到各行各业中,几乎已经成为每个人生活中必备的工具。在软件行业快速发展的同时,二进制分析技术和逆向工程技术也在快速的发展和进步,目前已经有成熟的自动化逆向工具集出现,这使得对软件的分析能力和分析效率大大提高,给软件的安全性和版权问题带来了极大威胁。为应对逆向分析给软件带来的安全威胁,目前主要采取的保护措施有:一、加壳,使用强度比较高的虚拟壳或者通过