基于本体的文本分类模型研究

被引量 : 0次 | 上传用户:chiaotian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的十几年中,将文本自动地归于事先定义好的类别的技术获得了长足发展,这主要是因为以数字形式存储的文档的数目急剧增长,引起了将它们进行有效组织以便于利用的需求。这一过程主要是用机器学习的方法,在事先构造的训练语料上学习各个类别的特征,自动构建出一个分类器。传统的文本分类方法都是采用向量空间模型的文本表示方法,用关键词作为特征来构建的。然而,向量空间模型的文本表示方法是基于贝叶斯假设之上的,即认为词与词之间没有语义联系。但是在现实文本中的用词往往是有关联的,比如:同义词、上下位关系等。并且用关键词来表示文本的特征虽然简单直观,但有其固有的局限性,主要有包含的类别信息太少,维数过高从而造成数据稀疏等两个问题。用特征串作为类别特征可以在一定程度上解决第一个问题,但又会进一步加剧数据稀疏问题。对第二个问题的解决方法一般是进行降维,去掉一些对分类结果没有影响或影响很小的特征,用剩余的特征来表示文本。根据结果特征的特点,降维方法可以分为(1)特征提取:结果是原始特征的子集;(2)特征抽取:结果不是原始特征的子集。基于概念的文本分类方法,采用概念作为特征,将特征从词空间映射到概念空间,这样多个同义词就对应一个概念,而一个多义词在不同的语境下会被映射到不同的概念,提高了特征的凝聚度,克服了基于关键词的分类方法的缺陷,提高了分类准确率。本文的研究工作主要包括以下几个方面:1.建立了基于本体的文本分类模型。2.提出基于本体获取概念特征的方法。3.使用概念空间代替词空间,提出相应的权重与相似度的计算方法,建立概念向量空间模型。4.讨论了K最邻近方法和支持向量机分类器,并将概念向量空间模型的思想运用于这两种分类器。5.给出新方法的仿真实验。实验结果表明,基于概念的文本分类与基于关键词的文本分类相比,在查准率、查全率和F1测试值上都占有较大优势。
其他文献
<正>一、基本情况李响,女,高三学生,担任班级宣传委员,家庭条件一般,父亲是当地某中学语文教师,母亲为一名农民。初二时转到父亲所在学校学习,并选择重读初一。这时初一英语
近年来,电视文艺节目尤其是一些综艺类节目,为迎合观众以提高收视率,呈现出过度追求娱乐化的倾向。这些节目“有意思”却没有意义,虽然有较高的收视率,却缺少正能量。这种“
在实际生长过程中,控制硅棒表面温度在1050℃&#177;20℃的范围内,测定了生长过程中直径在Φ25mm~Φ130mm时所对应的电压U和电流I值。在此基础上,计算了多晶硅的电阻率σ约为0
随着现代医学的发展,各种插管技术普遍运用于临床诊疗当中,如ICU的气管插管、外科术后的引流管、胃肠减压管、导尿管、经外周中心静脉留置管等,会出现一种难以避免的情况-非
带电水冲洗采用高电阻率水清洗绝缘子表面污秽,如何在有限的冲洗时间内将污秽盐密(ESDD)和灰密(NSDD)减小到干净的程度是带电水冲洗定量质量控制的关键,目前国内外标准和文献
红荧烯(5,6,11,12-四苯基并四苯)是目前热门的有机半导体材料之一,常用于研究与制造各种功能材料及器件。但红荧烯也具有对光氧敏感等缺点,因此近些年,通过在红荧烯分子中引
企业开展经营活动,需要有效地运用法律维护自身的合法权益。公证是一种法律证明活动,公证对企业在经营活动中合法权益的维护有着重要的作用。企业订立合同办理公证可防止无效
企业要想在经济飞速发展的今天保持健康、稳定的发展,就必须努力控制成本和提高企业的利润率。因此,企业会计成本核算成为了解决问题的核心部分。合理的成本核算不仅和成本投
在化工产品生产中,多晶硅的生产需要耗费较多的能源,采取有效的节能措施来降低多晶硅生产能耗成为当前化工企业急需解决的重要问题。为此,对多晶硅生产中的能耗进行分析,并探
“简州猫儿华阳狗”,这是很早以前四川各地就流传的一句民谚,说简州的猫好,华阳的狗好。简州的猫,被称为“神猫”,据说该猫有神形、神彩、神威、神奇、神养的特色。$$早在五百年前
报纸