基于粒计算模型和卷积神经网络模型的短文本分类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zsjingling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类的前提就是文本表示,文本表示的传统方法大多是采用计数的形式,而这种计数的方式认为词与词之间是互相独立存在的,没有考虑到文本语义信息,在特征选择时过多加入了人为的因素,从而导致提取的特征维度高、稀疏性强,无法有效地表示文本信息。而且现在在互联网上产生大量的文本信息,种类复杂以及变化多样性的主题给文本分类带来了很多挑战,如果采用传统的机器学习分类算法去训练模型时,泛化能力弱,尤其当数据集不平衡时。所以,如何更好的文本表示以及新的分类算法成为研究的关键点。在2006年,深度学习逐渐兴起,目前已经在语音和图像领域取得了重大的突破和发展,很多的深度学习研究成果都比传统的机器学习算法有更好的分类效果以及出色的性能,训练的模型,泛化能力更强。本文采用适合短文本分类表示的方法以及利用粒计算模型对短文本特征扩展,并且结合卷积神经网络模型对短文本进行分类,为此本文主要做了以下工作:1.详细地介绍了常见的短文本分类任务中的流程,包括数据预处理、分词、去停用词、特征表示等关键步骤。除此之外,还分析了短文本数据的特点,以及采用传统的机器学习分类算法时遇到的问题,这将为后续本文所采用的文本特征提取、文本特征扩展以及如何设计卷积神经网络模型奠定了基础。2.本文在构建短文本特征表示形式时,并没有人工构建,而是基于Skip-Gram神经网络语言模型训练每个词的word embedding,在训练时,除了自己的语料库,还加入了维基百科的数据,从而能够更好地表达词与词之间的语义信息,提高词的特征表达能力。3.提出一种基于粒计算模型的文本特征词扩展方法,首先利用语料库中训练好的每个词的word embedding,即特征词的词向量,基于所有特征词的词向量构建词向量空间,然后构造出相关的粒化关系对这个词向量空间进行粒化,粒化的结果使得词向量空间中的每个特征词都具有一个特征词类,也称为特征词粒,每个特征词类内部的特征词之间保持高度的相似性,最后选取特征词类中的特征词进行扩展,有效地缓解了短文本数据稀疏性问题,进一步提高了特征词的语义信息。4.设计了四种卷积核的卷积神经网络模型结构,在对每个文本扩展特征基础上,进一步提取了文本信息中最重要的信息,完成短文本分类任务。同时,在训练文本特征时,参数会不断更新。通过三组对比实验,可以得知:相比于传统的机器学习分类算法,本文提出的方法在分类效果上取得了更优的结果;利用词嵌入对文本特征进行初始化,相比于人工随机赋予文本特征初始化,在分类效果上更优异;本文的方法相较于传统的卷积神经网络模型而言也取得了更好的分类准确率。同时,对实验参数设置以及实验结果都给出了详细的结论分析。
其他文献
作为实现智慧医疗的主要技术,无线体域网以人体为中心,主要由可佩带或可植入人体内的传感器或控制器组成的一种自组织网络。当无线体域网中的传感器用于收集与处理用户的相关
随着国际经济增速的放缓和市场竞争的日益激烈,对客户需求的响应速度越来越成为赢得市场竞争的重要因素。在出口制造业,对客户需求的响应速度表现为对客户订单的生产提前期的
无线传感器网络是一种由无线传感器组成的自组织网络。无线传感器节点一般通过电池供电,由于电池的容量非常有限,传感器的能量限制成为了无线传感器网络持续运行的障碍。为了
mircoRNA是一类非编码类大约21-23核苷酸长度的小RNA。它能通过和其相对应的靶基因的m RNA碱基配对,引导其mRNA沉默复合体(RISC)降解以阻碍翻译,从而调控其相应基因在转录后
为更好地利用白菜类蔬菜作物的杂种优势,创制雄性不育系以解决其杂交制种手段问题,本研究以复等位基因遗传的矮脚白菜核基因雄性不育系为不育源,向矮脚黄白菜中转育核不育基
室内活动占据了现代生活的大部分,健康的室内环境是人们正常生活的重要前提,但装修材料、家具中挥发出的甲醛等污染气体已严重影响了人们的健康。光催化作为一种高效、绿色、环保的除甲醛方式,探索其在实际生活中的应用成为近年来研究的热点。表面积大、织造工艺成熟的窗帘成为光催化净化室内空气的理想载体。目前,具有光催化作用的纺织品层出不穷,许多新技术新工艺也不断涌现,但仍有许多问题亟待解决,例如原材料、工艺流程、
最近,计算机视觉和自然语言处理相结合的新领域受到了广泛的关注,例如视频描述生成,视频问答等。其中,视频问答作为一个非常新的研究领域吸引了很多的研究人员。它的目标是根
为进一步探究水分管理对稻米镉含量的影响,以13个早稻品种、14个晚稻品种为研究材料,通过盆栽试验研究了不同生育期脱水(分蘖期脱水,I1;孕穗期脱水,I2;抽穗期脱水,I3;乳熟期
生物特征技术发展,使得计算机可以通过提取步态特征进行步态识别和步态异常检测。但是监控视频里人群之间的相互遮挡会给前景实例分割和跟踪带来很大困难,现有运动目标提取方
习近平总书记指出,中国必须有自己特色的大国外交,使对外工作具备鲜明的中国特色、中国风格、中国气派。党的十八大以来,在以习近平同志为核心的党中央坚强领导下,面对国际形势风云变幻,我国对外工作保持定力、抓住机遇,攻坚克难、砥砺前行,开创了中国特色大国外交新局面。新时代深入推进中国特色大国外交,必须以习近平外交思想为根本遵循和行动指南,统筹国内国际两个大局,牢牢把握服务民族复兴、促进人类进步这条主线,推动构建人类命运共同体,坚定维护国家主权、安全、发展利益,积极参与引领全球治理体系改革,打造更加完善的全球伙伴关