基于BiLSTM与Bert的短文本分类方法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:yxdtlwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代的今天,各式各样大量的短信息数不胜数,包括手机短信、垃圾邮件、问答及推荐系统的留言、购物平台的商品评价等,及时准确的从短文本库中提取有价值的信息是目前文本分类领域面临的一大难题。研究高效的短文本内容提取方法是当前学术界的发展趋势,有助于提高用户获取有效信息的质量和速度,满足不同部门新闻分类、情感分类、舆情分析的需求。目前短文本分类中存在特征表示高维稀疏、语义分布不明显、上下文语意联系不强等问题,给信息抽取造成了一定的困扰。为更好的解决这些问题,提高文本分类的准确率,本文采用双向长短期记忆网络BiLSTM和Bert模型对短文本分类算法进行研究,主要工作包括:提出一种BiLSTM与注意力机制相结合的短文本分类模型,来解决长距离依赖问题并突出重点词汇在文本分类中的比重。该模型包括one-hot词向量输入层、BiLSTM层、注意力机制层和输出层。其中BiLSTM层可获取更多上下文不同距离的语义信息,注意力机制层对经过BiLSTM层编码的数据进行转变加权提升序列化的学习任务。通过实验表明:基于该模型的IT招聘信息分类准确率达到93.36%,与其他模型对比,提高约2%。构建基于Bert-BiLSTM的短文本分类模型,该模型在预处理过程中采用Bert进行向量表示,可以有效降低矩阵维度并解决一词多义等问题,对下游任务的进行奠定了良好的基础。BiLSTM模型对其向量进行训练,有效结合上下文语境,从而提高短文本分类的准确率。
其他文献
基于二维材料的光学器件和光电器件具有体积小、灵敏度高、可被制成柔性器件等优势,因此被认为是此类器件未来的发展方向。单层MoS_2是一种典型的二维材料,由两层S原子和一层Mo原子组成,厚度约为0.65 nm,为直接带隙半导体,带隙宽度1.8e V,这赋予了单层MoS_2很强的光致发光(Photoluminescence,PL)特性,也为单层MoS_2在场效应管(Field-effect transi
创业板是推动国家自主创新发展战略的重要平台,在创业板上市的高新技术企业研发成本和研发风险较高,同时这类企业成长速度较快因而受到各级政府的高度重视,近几年在政策扶持下高速发展但也暴露了外部竞争激烈、监管机制不完善,内部管理人员缺乏经验、流动性大等问题,因此从内部完善治理机制是帮助创业板高新技术企业稳定发展的首要任务。高层管理团队作为企业的战略决策中心,在战略把握、资源优化以及创新绩效等方面起着重要的
数学知识来源于生活,又必将深入到生活之中。在我国义务阶段课程标准中明确指出教师应积极借助学生已有生活知识与经验,引导将数学知识应用到生活之中,这不仅能够激发学生学
超宽带雷达具有较强的距离分辨力、良好的目标识别能力以及良好的抗干扰性能,在很多场景中发挥着重要作用。然而,超宽带雷达信号带宽较大,传统的窄带数字波束形成(Digital Beam Forming,DBF)方法不再适用,因此需要寻找新的方法解决超宽带信号的数字波束形成问题。本文重点研究了基于空时转换的超宽带信号DBF方法,采用延迟接收的方式将阵列空域信号转化为时域信号,再对时域信号进行滤波处理,从而
某型号低速载重货车因其载重量大和适应性强受到了欢迎,市场占有率较高,但面向国家升级该车型的政策导向,企业需要对该车型的振动、噪声等多个性能指标进行优化,以达到升级要
自石墨烯和类石墨烯过渡金属硫化物研究发现之后,由于其独特的光学、力学、热学、电学等特性,掀起了国内外研究热潮。但是,石墨烯的零带隙限制了其在电子器件领域的应用,单层二硫化钨(WS_2)作为二维过渡金属硫化物代表之一,不仅拥有石墨烯的高的力学强度,高的电子迁移率的特性,而且单层WS_2的2.1eV的直接带隙宽度克服了石墨烯的零带隙的劣势,使其在电子领域有着广阔的应用前景。WS_2的制备是拓展其应用的
在工业自动化程度不断提升的背景下,工业场景下多类零部件目标语义类别识别和分割定位,是工业视觉自动化检测领域的技术关键。本文针对工业场景下现有方法对多类零部件目标语义类别识别与分割定位的精度偏低、目标特征信息提取不足和目标边缘分割欠精确等问题,研究多尺度特征提取和级联式的多类零部件目标语义分割方法。本文的主要研究内容如下:(1)分析了当前先进的目标分割算法,根据这类算法的优点建立结合空洞卷积的残差网
日益增长的世界人口和粮食需求导致全球化肥施用量大幅增加,刺激了农业土壤氮素气体(如NH_3、N_2O)排放量增加,加剧了氮素流失和温室效应等环境问题。而近年来新兴的各种功能材料也可能进入土壤系统对氮素循环产生一定的影响。对不同类型农业土壤进行氮素循环的研究有利于进一步明确土壤氮素的迁移转化和对全球温室气体的贡献量。目前已有研究多关注典型农业系统,对于桑园系统土壤氮素循的了解较少。桑树是高氮作物,对
随着互联网的发展和各种移动设备的普及,带来了网络中的信息量爆炸式增长。由于流量变现的刺激,研究者们逐渐把目光投入到广告推荐领域。在广告推荐场景中,用户数量和广告数量快速增长,如何基于用户画像从海量的广告库中为用户提供个性化、精确化的推荐成为研究界和工业界普遍关注的问题。广告推荐场景可以建模成复杂网络,用户和广告代表网络中的节点,网络中的边表示节点对之间的关系。直观上看,用户的历史行为信息在用户兴趣
光催化反应是物质在光和催化剂同时作用下进行的化学反应,它包含多种光能驱动过程。其中太阳能转化为绿色化学的驱动反应(光分解水产氢、CO2还原和NH3生成、环境污染物降解)是解决环境和能源问题的有效途径。传统的光催化剂存在着太阳能利用率低和量子效率低等缺点,从而制约了他们在相关领域的发展。光子晶体(PCs)具有可调性强、集光能力强、有效表面积大、载流子分离效率高、能增强活性物质扩散等优点,在光催化领域