基于神经网络嵌入模型的中文文本分类方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:klzhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是目前自然语言处理领域最基础的任务之一,在信息检索、推荐系统等领域都有着广泛的研究和应用。传统的文本分类方法通过人工特征工程等方法对文本进行表示,再选择合适的分类器对文本表示进行分类。随着机器学习和深度学习的发展,一些基于神经网络的嵌入模型也在文本分类领域取得了出色的应用效果,尤其在英文文本分类领域。相较于英文文本分类,中文文本分类近几年才得到了广泛的关注,然而,由于其应用场景的差异和中文单词没有天然分隔符的特点,给中文文本分类带来了巨大挑战。因而进一步研究适用于不同场景的中文文本分类的算法具有重要意义和应用价值。基于此,本文开展了基于神经网络嵌入模型的中文文本分类方法研究,主要研究工作如下:(1)实际应用领域如税收领域开具的增值税发票数据具有总体数据量大、每条文本信息量少、特征项模糊等特点,这种海量极短中文文本数据的特点导致传统表示学习算法难以处理向量稀疏和维度灾难的问题。因此,本文提出一种基于词句嵌入模型的中文极短文本分类方法。首先,借助海量语料库使用基于神经网络的词句嵌入模型对文本进行有效表示,进而结合分类器对文本进行分类。最后,在税收编码分类任务的1600万真实数据集上的实验结果表明:该方法在精度上优于对比算法,可有效地提高海量极短文本的分类效果。(2)不同于英文文本,中文单词间没有自然的分隔符,为了降低分词错误造成的影响并充分利用文本自身的信息,本文提出一种针对中文的基于神经网络的动态结合字词嵌入文本分类模型。通过引入字符级和单词级Bi LSTM模型提取不定长的文本特征,在不需任何外部知识的情况下可以更准确、更容易地对中文文本进行表示和分类。最后,在5个公共中文文本数据集和6个基准算法进行了实验对比,在精度与加权平均F1值上的实验结果验证了所提方法的有效性和稳定性。
其他文献
提高交通效率的常用方法是控制交通信号灯以确保交通畅通,然而由于车辆行为的不可控,实际效果有限。随着智能网联汽车技术的发展,交通系统的云端控制中心不仅可以控制交通信
跨语言词向量学习是指利用某一种资源丰富的源语言词向量来辅助资源相对匮乏的目标语言词向量空间的学习,该问题的研究对小语种的自然语言处理任务具有重要的意义。最近,生成
随着机器人教育受到越来越多的重视,相应的教育型智能硬件成为不可或缺的教学设施。在该背景下,桌面机械臂凭借体积小、成本低等优势,跃然成为在机器人科教领域中率先面向广
棉麻织物中的棉麻纤维含量对于纺织品的价格及性能影响较大,因此在生产和销售时需要对棉麻织物中的棉麻含量进行检测。目前纤维检验机构对于纤维识别主要是运用显微镜识别法,
无线传感器网络(Wireless Sensor Network,WSN)广泛应用于社会的各行各业,但是WSN的寿命和性能一直受传感器节点能量有限的约束。近些年,受益于能量采集、转换技术的发展,能
在未知的环境中,机器人在向目标移动时需要准确的知道自己在未知环境中的位置,并建立一个所处环境的点云地图。同时定位与地图构建(Simultaneous Localization and Mapping,S
变循环发动机(Variable Cycle Engine,VCE)具有高单位推力和低耗油率,能够满足飞机的不同飞行动力要求等特性,是未来飞机的首选动力装置。与传统的航空发动机相比,变循环发动
随着数据业务的日益增长,人们对于数据传输速率以及传输质量的需求也越来越高,而传统的低频网络频谱资源有限,逐渐无法满足人们的通信需求。而毫米波通信凭借其丰富的带宽、超高的传输速率,受到了许多公司和标准化组织的青睐。定向传输的使用不仅弥补了毫米波路径损耗大的不足,也为多条链路并发传输进行空间复用带来了更多的可能性。此外,毫米波链路容易受到障碍物的遮挡发生中断,导致链路质量不断变化。尤其在密集网络中,链
随着无线通信技术的迅猛发展和智能终端设备的大量出现,人们对无线高速通信的要求也变得越来越高。然而,传统的微波频谱资源已经拥挤稀缺,其难以满足高速无线传输的需求。为了解决这一问题,通信界将目光转向高频段的毫米波,因此在下一代无线局域网标准IEEE 802.11ay中将使用毫米波进行无线通信。此外,为了增大无线信号的传输范围和提高信号传输的鲁棒性,可使用多AP(Access Point)系统来进行信号
无线传感器网络是目前计算机网络和通信领域非常具有前沿性的研究方向。在没有任何基础设施的前提下,通过大量无线传感器节点协同作业,能够进行实时监测、感知和获取任何地理环境和范围内的数据信息,并通过无线网络进行处理和转发,将获取的信息通过融合处理后传送到基站。由于无线传感器网络在安全性、能耗性等方面面临着非常严峻的挑战,也是亟待解决的问题。针对目前现有的无线传感器网络路由协议在设计过程中主要以节能为首要