基于本体的文本分类模型研究

被引量 : 0次 | 上传用户：chiaotian

【摘要】

：

在过去的十几年中，将文本自动地归于事先定义好的类别的技术获得了长足发展，这主要是因为以数字形式存储的文档的数目急剧增长，引起了将它们进行有效组织以便于利用的需求。这一

【作者】

：

邓爽

【发表日期】

：

2007年期

【关键词】

：

文本分类本体概念层次特征选择概念空间模型 SVM KNN

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在过去的十几年中，将文本自动地归于事先定义好的类别的技术获得了长足发展，这主要是因为以数字形式存储的文档的数目急剧增长，引起了将它们进行有效组织以便于利用的需求。这一过程主要是用机器学习的方法，在事先构造的训练语料上学习各个类别的特征，自动构建出一个分类器。传统的文本分类方法都是采用向量空间模型的文本表示方法，用关键词作为特征来构建的。然而，向量空间模型的文本表示方法是基于贝叶斯假设之上的，即认为词与词之间没有语义联系。但是在现实文本中的用词往往是有关联的，比如：同义词、上下位关系等。并且用关键词来表示文本的特征虽然简单直观，但有其固有的局限性，主要有包含的类别信息太少，维数过高从而造成数据稀疏等两个问题。用特征串作为类别特征可以在一定程度上解决第一个问题，但又会进一步加剧数据稀疏问题。对第二个问题的解决方法一般是进行降维，去掉一些对分类结果没有影响或影响很小的特征，用剩余的特征来表示文本。根据结果特征的特点，降维方法可以分为(1)特征提取：结果是原始特征的子集；(2)特征抽取：结果不是原始特征的子集。基于概念的文本分类方法，采用概念作为特征，将特征从词空间映射到概念空间，这样多个同义词就对应一个概念，而一个多义词在不同的语境下会被映射到不同的概念，提高了特征的凝聚度，克服了基于关键词的分类方法的缺陷，提高了分类准确率。本文的研究工作主要包括以下几个方面：1．建立了基于本体的文本分类模型。2．提出基于本体获取概念特征的方法。3．使用概念空间代替词空间，提出相应的权重与相似度的计算方法，建立概念向量空间模型。4．讨论了K最邻近方法和支持向量机分类器，并将概念向量空间模型的思想运用于这两种分类器。5．给出新方法的仿真实验。实验结果表明，基于概念的文本分类与基于关键词的文本分类相比，在查准率、查全率和F1测试值上都占有较大优势。

其他文献

是谁“偷走”了学生的英语学习潜能——元认识心理干预技术成功转化英语学困生的奥秘

<正>一、基本情况李响,女,高三学生,担任班级宣传委员,家庭条件一般,父亲是当地某中学语文教师,母亲为一名农民。初二时转到父亲所在学校学习,并选择重读初一。这时初一英语

期刊

条件性情绪暗示性学习低能元认知心理干预技术

2017年央视春晚节目的价值担当与引领

近年来,电视文艺节目尤其是一些综艺类节目,为迎合观众以提高收视率,呈现出过度追求娱乐化的倾向。这些节目“有意思”却没有意义,虽然有较高的收视率,却缺少正能量。这种“

期刊

央视春晚电视文艺节目社会正能量

还原炉内炽热多晶硅电阻率的测定与计算

在实际生长过程中,控制硅棒表面温度在1050℃±20℃的范围内,测定了生长过程中直径在Φ25mm~Φ130mm时所对应的电压U和电流I值。在此基础上,计算了多晶硅的电阻率σ约为0

期刊

多晶硅炽热电阻率

非计划性拔管的护理研究现状

随着现代医学的发展,各种插管技术普遍运用于临床诊疗当中,如ICU的气管插管、外科术后的引流管、胃肠减压管、导尿管、经外周中心静脉留置管等,会出现一种难以避免的情况-非

期刊

非计划性拔管ICU导管堵塞留置导管胃肠减压管护理理念

500 kV支柱绝缘子带电水冲洗清洗效率试验研究

带电水冲洗采用高电阻率水清洗绝缘子表面污秽,如何在有限的冲洗时间内将污秽盐密(ESDD)和灰密(NSDD)减小到干净的程度是带电水冲洗定量质量控制的关键,目前国内外标准和文献

期刊

带电水冲洗500 kV变电站支柱绝缘子喷嘴直径污秽度冲洗压强清洗效率

红荧烯体系结构、溶剂效应以及光电性能的密度泛函理论计算

红荧烯(5,6,11,12-四苯基并四苯)是目前热门的有机半导体材料之一,常用于研究与制造各种功能材料及器件。但红荧烯也具有对光氧敏感等缺点,因此近些年,通过在红荧烯分子中引

学位

红荧烯及衍生物密度泛函理论溶剂效应光电性能

公证在企业经营活动中的法律作用

企业开展经营活动,需要有效地运用法律维护自身的合法权益。公证是一种法律证明活动,公证对企业在经营活动中合法权益的维护有着重要的作用。企业订立合同办理公证可防止无效

期刊

企业经营公证证明法律作用

企业会计成本核算的相关问题研究

企业要想在经济飞速发展的今天保持健康、稳定的发展,就必须努力控制成本和提高企业的利润率。因此,企业会计成本核算成为了解决问题的核心部分。合理的成本核算不仅和成本投

期刊

会计成本核算问题

多晶硅生产中能耗的分析及节能途径探究

在化工产品生产中,多晶硅的生产需要耗费较多的能源,采取有效的节能措施来降低多晶硅生产能耗成为当前化工企业急需解决的重要问题。为此,对多晶硅生产中的能耗进行分析,并探

期刊

多晶硅生产生产能耗节能途径分析

简州神猫

“简州猫儿华阳狗”，这是很早以前四川各地就流传的一句民谚，说简州的猫好，华阳的狗好。简州的猫，被称为“神猫”，据说该猫有神形、神彩、神威、神奇、神养的特色。$$早在五百年前

报纸

基于本体的文本分类模型研究

与本文相关的学术论文