【摘 要】
:
[目的]为缓解在公开论坛、企业后台数据仓库的数据自动化分类及存储过程中,由于电商评论文本具有一词多义、信息分布稀疏等特点而造成的处理困难,本文设计基于B E RT语言模型和多通道特征抽取的文本分类模型,实现评论文本的自动化分类.[方法]考虑到中文文本的最小表达单元是字,通过B E RT的字向量编码联动TextCNN缓解一词多义的问题.为捕获长距离上下文语义信息,模型设计了BERT联动Bi-LSTM的通道.充分利用BERT的微调机制,使字向量编码根据两个通道的特征抽取方式进行调整,从而得到适配局部和长距离特
【机 构】
:
合肥工业大学管理学院 合肥 230009;合肥工业大学管理学院 合肥 230009;过程优化与智能决策教育部重点实验室 合肥 230009
论文部分内容阅读
[目的]为缓解在公开论坛、企业后台数据仓库的数据自动化分类及存储过程中,由于电商评论文本具有一词多义、信息分布稀疏等特点而造成的处理困难,本文设计基于B E RT语言模型和多通道特征抽取的文本分类模型,实现评论文本的自动化分类.[方法]考虑到中文文本的最小表达单元是字,通过B E RT的字向量编码联动TextCNN缓解一词多义的问题.为捕获长距离上下文语义信息,模型设计了BERT联动Bi-LSTM的通道.充分利用BERT的微调机制,使字向量编码根据两个通道的特征抽取方式进行调整,从而得到适配局部和长距离特征抽取的字向量编码结果.模型最终融合两个通道的特征向量,完成文本分类任务.[结果]本文提出的MFFMB(Multi-Features Fusion Model BERT-based)模型在公开的电子商务评论多分类数据集上的准确率高达0.9007,相对于基线模型BERT+TextCNN、BERT+BiLSTM、BERT+LSTM+MaxPooling、BERT+LSTM+Attention分别提升2.36、8.55、4.61、5.11个百分点.同时,实验结果说明BERT和注意力机制的引入,相对于基线模型中的较优者,准确率分别提升约1.48和4.81个百分点.[局限]注意力机制仅在BiLSTM通道引入,没有在全局设计;本文模型未在更多数据集上验证效果.[结论]本文模型能够更好地结合多维度信息,更加充分地挖掘B E RT预训练模型在文本分类任务上的作用,提高了分类的准确性.
其他文献
文章首先说明了“双减”背景下小组合作学习在初中地理教学中应用的价值,然后阐述了“双减”背景下小组合作学习在初中地理教学中应用的思路,最后论述了“双减”背景下小组合作学习在初中地理教学中应用的实践.
文章首先说明了生活化教学理念在初中地理学科教学中应用的意义,然后分析了生活化教学理念在初中地理学科教学中应用的现状,最后从以现实生活作为素材导入课堂教学、结合现实生活实例开展课堂教学、用教材理论解析生活中的地理现象、结合现实生活安排地理知识的巩固复习四个方面论述了初中地理生活化教学优化策略.
为了促进学生语文素养的形成,提高学生的阅读能力,文章首先从学校重视程度不够、教师相关经验不足、学生阅读兴趣低下、阅读评价方式单一四个方面论述了小学整本书阅读实施困境,然后提出了小学整本书阅读优化策略,包括开设规范的阅读课程、提升教师综合素养、推荐优质阅读书单、完善阅读评价体系.
本研究探讨了政府多方推进家长教育参与政策却不能收到实效的深层原因和应对策略.首先梳理了家长的“教育民心”及其不被重视的现状,特别是确认了忽视家长意见和作用的社会心理的存在.家长因缺乏存在感导致产生连锁效应:不被重视,进而难以发声,即使发声也少被倾听.这种连锁关系是阻碍家长难以平等、有效参与教育的深层原因.打破这一深层关系的关键是确立家长的存在感.为了夯实家长作为教育主体的存在感,抵制敌视家长的文化和争取社会认可成为重要课题.其次,就课题攻克方案,提出形象重塑与学术策略.形象重塑提出“教育公民”新形象以替换
[目的]为促进数据交易所安全合规发展,本文针对数据交易所场景下的数据交易风险、数据安全风险与基础安全风险,提出兼顾技术路径与机制保障的数据交易安全管控综合框架.[方法]运用文献调研法,梳理近几年国内外数据交易安全领域的技术与管理研究现状,结合数据交易所实践,提出技术与机制相结合的“TID-MOP”数据交易安全管控体系.[结果]“TID-MOP”综合框架设计了实现交易安全的“三分三合”核心技术架构,即“业务流、计算流、资金流相分离,通过区块链汇合流通环境”;“撮合实验环境与生产计算环境相分离,通过模型管理、
文章首先说明了数学猜测在小学数学学科教学中应用的意义,然后分析了数学猜测在小学数学学科教学中应用的现状,最后提出了数学猜测在小学数学学科教学中应用的策略,包括挖掘教材理论知识,引出数学猜测内容;引入生活场景元素,激发学生猜测兴趣;引导学生主动思考,强化学生思维能力;引导学生质疑追问,拓展学生猜测深度;积极猜测反思,升华学科教学成果.
近日,发表在Cyberpsychology, Behavior, and Social Networking杂志上的一项新研究结果显示,社交媒体的使用与大学生身体健康状况不佳的生物学和心理学指标有关.研究过程中发现,过度使用社交媒体的参与者被发现具有更高水平的C反应蛋白(CRP),这是一种慢性炎症的生物标志物,可预测严重疾病,如糖尿病、某些癌症和心血管疾病.除此之外,更多的社交媒体使用还与头痛、胸痛和背痛等躯体症状有关,并且,会更频繁地去看医生或去健康中心治疗疾病.
[目的]在突发公共卫生事件情境下,计算网民对政务微博的信任度,探究信任度变化的原因.[方法]根据评论对象、评论与微博的主题相似度、情感倾向三部分的匹配结果计算政务微博的评论区信任值,将点赞和转发作为政务微博的点赞信任值和转发信任值,计算网民对政务微博的综合信任度.[结果]使用新冠疫情的微博数据进行实证分析,发现行业战疫相关的话题可以提升政务微博的信任度,境内疫情对网民信任度的作用会受到行业战疫和政府行动的影响;不同行业的政务微博信任度的变化趋势及原因有较大差异.[局限]微博评论的对象只考虑了事件和博主两种
[目的]研究意见领袖类别划分方法,从多角度对不同类别意见领袖特点做出评价.[方法]提出利用社团划分识别意见领袖类别的方法,并利用二维分析框架模型从网络扩散能力和文本情绪支配度两维度综合分析意见领袖影响力.实证分析选取推特数据,通过网络分析和文本挖掘对不同类别意见领袖进行对比.[结果]意见领袖被识别为三类社团,在网络扩散能力和情绪支配度两维度呈现不同排名,且两维度相关系数的绝对值小于0.3,不具备相关性,二维矩阵分析相较传统加权求和的方法能更全面地反映影响力特点.[局限]在文本情绪影响力评价中,只对原文的文
[目的]提出一种基于多语义词向量的中文新词发现方法(MWEC),解决多领域社交媒体文本的分词不准确问题.[方法]利用社交媒体文本,结合中文知网和汉字笔画数据库训练多语义词向量,以解决语义混淆问题.使用N-gram频繁字符串挖掘方法识别相关度高的子词集合,以此获取新词候选集.利用多语义词向量的语义相似度评估候选词进而获得新词.[结果]在金融、体育、旅游和音乐4个领域数据集上进行实验,结果表明本文方法的F1指标较对比方法分别提升了2.0(金融)、3.0(体育)、2.6(旅游)、11.3(音乐)个百分点.[局限