基于粗糙集理论的文本自动分类研究

被引量 : 0次 | 上传用户:cuileidan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是目前信息检索和自然语言处理领域的研究热点之一。九十年代以后,机器学习方法逐步广泛应用于文本自动分类。基于机器学习的文本自动分类是一个非常复杂的信息处理任务,目前仍然面临着许多亟待解决的难题。本文将针对文本自动分类涉及的几个主要问题进行比较深入的研究和探索。具体研究内容和创新性研究成果概括如下: (1) 基于N-gram的中英文文本表达方法。文本表达是指将表达文献主题内容的词汇抽取出来的过程。常用的向量空间表达法主要采用TF/IDF等权重法。该类权重法普遍存在两大缺点:一是需要计算词汇在整个数据集中频率,标引效率较低;二是不能直接应用于中文等东方语种文献。否则,必须首先解决分词技术问题。本文的研究成果是提出了一种不需要进行中文分词,且不依赖文本数据集,能够同时适宜于中英文文献的文本表达方法。该方法的主要创新点包括:提出了基于N-Gram的GF/GL权重法,能够根据单篇文献中各个N-gram的出现频率和长度计算它们表达文献主题内容的重要性;提出了根据文献N-gram权重值和子父串关系筛选文献关键词的算法。该算法不需要复杂的参数定义,能够灵活控制文献标引深度和标引专指度。实验结果表明,本文提出的文本表达方法能够获得比TF/IDF更优的标引性能。 (2) 标引词的语义异构性处理。通过文本表达获得的标引词,通常是没有进行语义规范控制的自由词。如果直接将这些标引词作为特征项输入文本自动分类算法,会直接导致计算时间复杂度的增加和分类性能的降低。人工方法和经典相似度计算方法是目前建立标引词语义转换关系的主要方式。本文的研究成果是提出了一种基于粗糙集理论和索引语言理论的标引词语义转换模型,可以用于建立来源于多个索引语言的标引词之间的语义关系,解决标引词的语义异构性问题。该模型的优点表现在:克服了人工转换方法成本高、效率低的缺点;克服了经典相似度计算方法单向性和不能明确定义标引词之间语义关系的缺点;能够快速有效地实现多个索引语言在不同兼容水平上的标引词语义双向转换;能够较大范围地集成具有语义关系的标引词,克服特征抽取方法受限于数据集的缺点。该方法既可用于文本表达结果的规范控制,也可用于文献检索系统中多种索引语言的自动语义集成,从而实现应用单种索引语言进行跨数据库检索。 (3) 粗糙集理论在文本自动分类中的应用问题研究。决策树、神经网络、
其他文献
本实验采用沙土鼠脑缺血再灌注损伤模型,比较研究了补阳还五汤原方和有效部位组方对脑缺血再灌注后海马CA1区病理形态结构及神经元凋亡、热休克蛋白70(HSP70)表达和反应性星形胶
<正>报告将财富管理宏观指数分为规模、发展与环境三大一级指标,其中,规模指数反映全球财富管理行业的体量指标,发展指数反映各地区财富管理行业的发展速度、需求的增长等情
目的探讨老年精神分裂症患者病耻感现状及影响因素。方法采用精神分裂症患者病耻感量表、自知力与治疗态度问卷(ITAQ)对在我院住院随访的120名老年精神分裂症患者进行问卷调
腹部手术后肠粘连自腹部手术大规模开展以来一直未能很好解决。新斯的明、普瑞博斯、莫沙比利等能促进肠蠕动早期恢复,但能引起肠痉挛和其他副作用,口服中药也因为术后禁饮食而
[目的]分析2009~2014年湖南省肿瘤登记地区恶性肿瘤的发病、死亡情况。[方法]收集2009~2014年湖南省22个肿瘤登记地区上报的肿瘤发病与死亡资料。按城乡、性别分层,分别计算
目的:观察肿痛酊治疗急性软组织损伤的临床疗效,并从理论和临床研究两个方面系统探讨肿痛酊治疗急性软组织损伤的机制。方法:临床选择符合纳入标准的急性软组织损伤患者共138例,
目的 探讨盆腔炎康胶囊治疗湿热瘀阻型慢性盆腔炎的疗效及安全性,为盆腔炎康胶囊的临床应用提供科学的依据。 方法 选择湿热瘀阻型慢性盆腔炎患者80例,随机分成盆腔炎
目的建立跨境电子商务的服务设计模型,以增强跨境电商消费者的信任度和满意度,提升消费者的购物体验。方法根据利益相关者信任框架模型等理论以及服务流程共提取了16个服务设
<正> 切记!不论罹患何种病症,都不可以随便乱吃成药。 大部分的胃药都含有车莨菪浸膏(extractumscopolia)的成分,由于此种物质可抑制胃液的分泌,对于治疗胃炎及胃溃疡很有效
数学知识在平时的生活中处处可见,对学生的生活起着关键的指导效果。在日新月异的互联网高速发展环境下,高中数学教师创新教学模式的任务已迫在眉睫,要求数学教师能更好地运