基于多标签信息的特征向量映射算法研究

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:gg5921
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签文本分类因为其类别标签个数不确定的特点一直是自然语言处理领域的研究难点,更是文本分类任务最大的难题。现阶段的多标签文本分类算法更多集中在多标签分类器输出空间的探讨,而对于输入空间的文本向量化的研究相对缺乏。由于分类问题需要花费大量的人力进行文本标注,因此在标注样本量相对较少的情况下,一个好的文本表示算法对于分类性能的提升至关重要。本文提出了一种基于多标签信息的特征向量映射算法,并在此基础上,针对所爬取控烟新闻数据集标注困难的特点,提出一种改进的多视图半监督学习算法,进一步提升分类性能,为控烟舆情分析提供数据支撑。全文的主要工作及研究内容可分为以下三点:首先,通过网络爬虫技术从各大新闻搜索引擎网站抓取了大量控烟相关的新闻报道,并对部分数据做了多标签人工标注和文本预处理。其次,分析了文本向量化表示以及多标签分类的发展现状,针对现阶段仍然存有的一些缺陷,提出了具体的改进措施。本文的文本表示以词向量为基础,避免了传统的多标签分类文本表示中向量维度不受控或无法表示文本语义信息等问题。在分类器的输入空间对多标签进行高阶关联,基于多标签对应的正反例文本的特征信息对文本进行特征向量映射,将同一条新闻在不同标签下的分类器输入特征映射成为一个不同的向量表示。在控烟数据集上验证了该算法的有效性。最后,为充分利用未标注新闻数据,在避免资源浪费的同时进一步提高分类性能,本文在特征映射向量表示的基础上改进了半监督学习。利用新闻数据的结构化特征,对新闻标题、正文利用不同的分类器构建了多视图结构,对样本不平衡问题采取具体措施,在最终模型判别阶段借鉴了集成学习的思想,并予以改进,进一步提升了模型的泛化能力。
其他文献
随着近年来预售策略的盛行,越来越多的供应链利用预售为补货提供时间保障。在本文中,我们介绍了供应商为有库存限的零售商提供快速补货的供应链模型,并且参考了前人的研究,通
抗菌肽CGA-N12具有特异抗热带念珠菌(Candida tropicalis MYA-3404)抗性,能够与合成热带念珠菌细胞壁β-1,6-葡聚糖的KRE9蛋白结合。因此,研究抗菌肽CGA-N12与KRE9蛋白之间的
目的观察葡萄糖调节蛋白78(glucose-regulated protein 78,GRP78)对EGFR L858R突变的非小细胞肺癌对erlotinib敏感性的影响,为最终发展erlotinib耐药的非小细胞肺癌患者提供
本文利用Ant Conc分析软件研究中美贸易摩擦新闻语篇中介入资源的分布情况,并结合语境探究中美两国媒体关于中美贸易摩擦报道的立场和观点。我们选择分析的语料为中美贸易摩擦最激烈时期的2018年7月6日至7月16日和中美双方首次达成协议前后的2019年6月24日至2019年7月4日发表于《中国日报》《华盛顿邮报》《纽约时报》的86篇英文新闻语篇,共计64862字(其中中方32450字,美方32412
随着社会的不断发展和日常的生产实践的进步,人们对新科学技术的依赖和渴望也在不断增加。例如在工程技术、生产规划以及经济管理等领域存在层出不穷的NP(Non-deterministic
随着我国全面依法治国、建设社会主义法治国家的深入推进,汉藏双语在藏族聚居区依法治藏、普及法律知识、依法行政等过程中使用更加普遍,工作要求亦越来越高。在此大背景下,
第一部分慢性心力衰竭中医临床疗效评价替代指标的文献调查目的收集慢性心力衰竭临床试验报告的替代指标,分析替代指标在选取和使用中存在的问题。方法检索中文全文期刊数据库(CNKI),Pub Med等数据库中有关慢性心力衰竭的临床研究文献,依据纳入、排除标准进行筛选,填写中、英文文献调查表,提取文献信息;借助频数分布等方法,分别从研究概况、研究年份、使用频率、组合规律等几个方面统计替代指标的选择和使用情况
合金钢是国民经济的重要原材料,其主要元素是铁,其它还含有硅、锰、铬、镍、铜等元素,合金钢中是否含有这些元素或这些元素含量的多少,直接影响合金钢的性能和质量,因此在合
近些年来,随着移动互联网技术的发展以及移动网络的提速降费,移动视频业务逐渐受到人们的欢迎。DASH(Dynamic Adaptive Streaming over HTTP)作为一种新型的视频流媒体技术,
随着互联网信息的爆炸式增长,用户在数据严重过载的情况下获取信息的成本越来越高,为了帮助用户更加便利而且精准的获取数据,推荐服务应运而生。然而传统的推荐算法却面临着