基于本体的文本分类研究

被引量 : 4次 | 上传用户:Fishfag
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和企业内部网的迅猛发展,各种电子文本信息急剧膨胀。如何有效组织和管理这些信息,并快速、准确、全面的从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,帮助人们准确高效的定位信息和分流信息。因此具有广泛的应用前景。传统文本分类大都采用向量空间模型的文本表示方法,采用关键词作为特征来构建。如朴素贝叶斯方法、KNN方法、支持向量机方法等。这些方法是基于贝叶斯假设之上,认为关键词之间是相互独立,没有语义关联的,这显然与事实相违背,影响了分类的效果。现实文本中的用词往往都是有语义关联的,如同义关系、近义关系、上下位关系等。为解决这些问题,本文尝试引入本体,利用本体类层次结构及属性约束等特点,将关键词与领域本体概念进行匹配,建立概念向量空间模型进行文本分类。旨在解决文本分类中术语一词多义、一义多词和概念的层次问题,克服基于关键词分类方法的缺陷,提高分类的准确率。同时,本文还研究了文本分类与个性化信息检索的关系,对用户兴趣模型进行分析,提出用户兴趣模型建立与调整算法,使分类的结果更加符合用户意图。本文的研究内容主要包括以下几个方面:1.对文本分类过程的关键技术进行介绍,包括文本分类定义、特征选择、分类方法、性能评价,总结传统文本分类方法的特点。2.文本分类与个性化信息检索的研究。文本分类与信息检索有着极为密切的关系,它借鉴了许多检索的表示方法和技术,推动分类的发展。本文对用户兴趣模型进行分析,从关键词和主题词的角度出发建立用户兴趣模型,并提出用户兴趣模型的调整算法,使分类的结果更加符合用户的意图。3.基于本体获取概念特征,用概念空间代替关键词空间。介绍本体概念、建模原语、构建方法及构建工具,用本体构建工具Protégé建立教育领域本体。分析本体应用到文本分类中的意义,即解决了术语混乱问题。4.提出基于概念向量空间模型的文本分类系统架构。以KNN分类器为例,对基于概念向量空间的分类流程进行详细说明。通过模拟实验表明,基于概念的文本分类能有效提高分类的准确度。最后对论文进行了总结和展望,指出基于本体的文本分类尚需研究和改进的问题。
其他文献
目的:研究个性化护理与心理行为干预联合用于肝胆外科围手术期患者护理中的效果。方法:选取本院2018年1-12月中肝胆外科手术患者86例,按照护理方式不同进行分组,每组各43例。
教育离不开儿童文学,儿童文学离不开教育。儿童文学对于儿童具有审美教育功能。这些教育功能可以从儿童文学读者审美倾向得以体现。儿童读者的儿童文学审美倾向主要有:愉悦性
随着空袭与反空袭斗争成为现代战争的主要作战样式,一个时期以来,我军及其后备力量以反空袭作战为主题,进行了大量而深入的研究。后备力量战线的一些同志感到,由于侦察能力、
本文根据处理土状残坡积砂锡矿的选矿实践,叙述原矿的性质、工艺流程及其指标,对主要作业的优缺点进行评价,并提出了改进意见。 Based on the beneficiation practice of pr
所谓关联交易就是企业关联方之间的交易,是指在关联方之间发生转移资源或义务的事项,而不论是否收取价款。主要有购销商品或其他资产(如固定资产、无形资产),提供或接受劳务,
在简要介绍"石头汤"故事的基础上,详细阐述了"石头汤"在信息技术教学中的教学角色隐喻、教学方法隐喻、教学过程隐喻、教学理念隐喻及其启示,并总结了故事所内含的八种教学角
目的:考察受艾滋病影响儿童的自我和谐、感恩与人际信任的关系,为受艾滋病影响儿童的人际信任干预提供借鉴。方法:选取250名受艾滋病影响儿童和100名正常儿童,采用自我和谐量
由于岩体介质材料的特殊性,在地下工程围岩稳定性分析与施工设计的过程中,本构模型及其计算参数的选取对计算结果的可靠性有着重要的影响。反分析为解决这一问题提供了较为有效
随着社会的发展,高等学校服务于社会的功能越来越突出。高等学校通过培养人才服务于社会,而高校毕业生作为社会文化的传播者和继承者又有相当一部分留在城市。他们不仅创造了
活性粉末混凝土(简称“RPC”)作为一种新型的复合材料,其性能高于普通混凝土和高强混凝土,本文主要对RPC应用于公路双柱式空心墩在抗震性能进行探讨和研究。参照《公路钢筋混