基于文本序列和语义信息学习的文本分类研究

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:qazzaq123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展,出现了博客、微博、论坛和新闻网站等大量的以文本为载体的数字媒体,如何利用这些信息对用户行为进行分析、对用户推荐内容及对用户提供服务等是十分重要且价值巨大的研究,因而自动文本分类作为一种基础的文本任务成为了人们研究的热点。其中比较重要的研究是关于学习好的文本表示和建立适用性广泛的模型的研究。本文基于对文本语义和文本序列信息的深度研究,提出了多粒度文本学习方法和适用于不同长度文本的通用文本表示模型,并基于此提出了新的句子和文档分类模型。在文本语义学习方面,本文基于词向量学习原理深度分析了词向量所编码的分布式信息的本质含义,即一种包括语义、语法、语用和词性等一般语言特征的综合编码,并且词向量的这种特性与学习模型、数据集和维度无关;同时,在进一步分析词向量学习和文本任务的相关性基础上,通过文本分类实验证明将词向量学习和文本分类任务共同优化可以帮助提升文本分类任务的效果。在文本序列信息方面,在词和句子两种粒度下分析了文本序列信息的本质;词级顺序性反映了句子的句法、语法等信息,句子级的顺序性反映了文章的行文逻辑;同时从全局序列信息学习和局部序列信息学习两个方面研究了序列信息的学习方法。在文本表示方面,提出了多粒度文本学习方法和监督通用文本表示模型。在文本分类上,基于通用文本表示模型提出了两个句子分类模型:LSTM-WSM和CNN-WSM,并在句子分类任务上取得了良好的效果;同时,提出了两个基于句子和文档双层表示学习的文档分类模型:独立双层文本分类模型(IBLM)和独立递增表示和预测模型(IIRPM)。最终本文提出的文档分类模型IBLM和IIRPM在复旦新闻数据集上测试的准确率分别为94.7%和95.8%,其中95.8%是目前的最优效果;在20Newsgroups数据集上的测试准确率为74%和73.1%,其中74%是目前的最优效果。但在句子分类任务上本文提出的句子分类模型效果并没有超过最佳效果,接下来我们将探索更多文本语义和序列信息学习模型,以期取得更佳的效果。
其他文献
分析了CMOS逻辑电路的功耗来源,对低功耗内建自测试技术进行了研究。为了减少被测电路内部节点的开关翻转活动率,提高测试向量之间的相关性,研究了随机单输入跳变测试生成序列,可
玉米是我国北方地区的重要粮食作物,是我国农业重要的粮食作物,根据我国北方地区主要的土壤特点和不同的水分特点,结合我国多地的不同情况,不同的土地应该具有不同的施肥量,
为满足子午线巨型轮胎成型工艺的需要,设计了一种利用三菱Q系列PLC、伺服系统、变频器、上位机和温度、压力控制器等构成的稳定、实用、可靠的子午巨型轮胎成型一段缠绕控制
<正>对广西16家大中型公立医院调研后发现,在新《医院财务制度》执行过程中,预算管理的执行效果普遍不理想,存在诸多管理盲区和难点。笔者就此谈谈自己的看法。一、广西公立
【正】 序言杨树达(1885—1956)是我国现代著名的语言文字学家。字遇夫,号积微,晚号耐林翁。湖南长沙人。早年就学于时务学堂,后来到日本留学。1911年辛亥革命后回国,先后在
Maxim推出引脚和软件兼容的16位(MAX5138)和12位(MAX5139)高精度DAC。该系列DAC采用3mm&#215;3mm封装,集成了高精度电压基准,具有优异的线性度性能。器件的引脚和软件兼容特性使设
在本篇研究之中,我们选择用2004年至2014年这11年间的数据作为研究样本,考察了由地方政府官员变动所引起的政策不确定性对中国上市公司现金持有水平的具体影响。总体上来说,
道德对国家经济发展和社会进步具有重要的推动作用。在新的历史条件下,高等学校加强思想政治工作,贯彻“以德育人”的方略,显得更为重要。充分认识高校“以德育人”的作用,全面地
经济全球化给中国的社会主义现代化建设事业带来了空前的发展机遇,同时也提出空前严重的挑战,为此我们必须加强政治伦理建设.政治伦理的核心理念和最高价值标准要求公民确立
以5种植物病原真菌为靶标菌,采用平板对峙法和生长速率法对分离自河南省新乡市毛泡桐及根际的41株放线菌进行筛选;通过生理生化特征、培养特征、形态特征和基于16S rRNA基因