基于粗糙集理论的文本自动分类研究

被引量 : 0次 | 上传用户：cuileidan

【摘要】

：

文本自动分类是目前信息检索和自然语言处理领域的研究热点之一。九十年代以后,机器学习方法逐步广泛应用于文本自动分类。基于机器学习的文本自动分类是一个非常复杂的信息

【作者】

：

张雪英

【发表日期】

：

2005年期

【关键词】

：

文本表达关键词抽取粗糙集理论语义异构性分类算法文本自动分类分类规则机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本自动分类是目前信息检索和自然语言处理领域的研究热点之一。九十年代以后,机器学习方法逐步广泛应用于文本自动分类。基于机器学习的文本自动分类是一个非常复杂的信息处理任务,目前仍然面临着许多亟待解决的难题。本文将针对文本自动分类涉及的几个主要问题进行比较深入的研究和探索。具体研究内容和创新性研究成果概括如下: (1) 基于N-gram的中英文文本表达方法。文本表达是指将表达文献主题内容的词汇抽取出来的过程。常用的向量空间表达法主要采用TF/IDF等权重法。该类权重法普遍存在两大缺点:一是需要计算词汇在整个数据集中频率,标引效率较低;二是不能直接应用于中文等东方语种文献。否则,必须首先解决分词技术问题。本文的研究成果是提出了一种不需要进行中文分词,且不依赖文本数据集,能够同时适宜于中英文文献的文本表达方法。该方法的主要创新点包括:提出了基于N-Gram的GF/GL权重法,能够根据单篇文献中各个N-gram的出现频率和长度计算它们表达文献主题内容的重要性;提出了根据文献N-gram权重值和子父串关系筛选文献关键词的算法。该算法不需要复杂的参数定义,能够灵活控制文献标引深度和标引专指度。实验结果表明,本文提出的文本表达方法能够获得比TF/IDF更优的标引性能。 (2) 标引词的语义异构性处理。通过文本表达获得的标引词,通常是没有进行语义规范控制的自由词。如果直接将这些标引词作为特征项输入文本自动分类算法,会直接导致计算时间复杂度的增加和分类性能的降低。人工方法和经典相似度计算方法是目前建立标引词语义转换关系的主要方式。本文的研究成果是提出了一种基于粗糙集理论和索引语言理论的标引词语义转换模型,可以用于建立来源于多个索引语言的标引词之间的语义关系,解决标引词的语义异构性问题。该模型的优点表现在:克服了人工转换方法成本高、效率低的缺点;克服了经典相似度计算方法单向性和不能明确定义标引词之间语义关系的缺点;能够快速有效地实现多个索引语言在不同兼容水平上的标引词语义双向转换;能够较大范围地集成具有语义关系的标引词,克服特征抽取方法受限于数据集的缺点。该方法既可用于文本表达结果的规范控制,也可用于文献检索系统中多种索引语言的自动语义集成,从而实现应用单种索引语言进行跨数据库检索。 (3) 粗糙集理论在文本自动分类中的应用问题研究。决策树、神经网络、

其他文献

补阳还五汤及其有效部位组方抗脑缺血再灌注损伤的部分机理研究

本实验采用沙土鼠脑缺血再灌注损伤模型，比较研究了补阳还五汤原方和有效部位组方对脑缺血再灌注后海马CA1区病理形态结构及神经元凋亡、热休克蛋白70（HSP70）表达和反应性星形胶

学位

补阳还五汤有效部位脑缺血热休蛋白70凋亡神经元星形胶质细胞胶质纤维酸性蛋白

全球财富管理发展宏观指数体系构建

<正>报告将财富管理宏观指数分为规模、发展与环境三大一级指标,其中,规模指数反映全球财富管理行业的体量指标,发展指数反映各地区财富管理行业的发展速度、需求的增长等情

期刊

高净值客户高净值人群体系构建

老年精神分裂症患者病耻感影响因素研究

目的探讨老年精神分裂症患者病耻感现状及影响因素。方法采用精神分裂症患者病耻感量表、自知力与治疗态度问卷(ITAQ)对在我院住院随访的120名老年精神分裂症患者进行问卷调

期刊

老年精神分裂症病耻感

浓缩中药灌肠剂促术后肠蠕动临床疗效分析

腹部手术后肠粘连自腹部手术大规模开展以来一直未能很好解决。新斯的明、普瑞博斯、莫沙比利等能促进肠蠕动早期恢复，但能引起肠痉挛和其他副作用，口服中药也因为术后禁饮食而

期刊

浓缩中药灌肠剂肠粘连肠蠕动

2009～2014年湖南省肿瘤登记地区恶性肿瘤发病与死亡分析

[目的]分析2009~2014年湖南省肿瘤登记地区恶性肿瘤的发病、死亡情况。[方法]收集2009~2014年湖南省22个肿瘤登记地区上报的肿瘤发病与死亡资料。按城乡、性别分层,分别计算

期刊

肿瘤登记恶性肿瘤发病率死亡率湖南

肿痛酊治疗急性软组织损伤的临床观察与研究

目的：观察肿痛酊治疗急性软组织损伤的临床疗效，并从理论和临床研究两个方面系统探讨肿痛酊治疗急性软组织损伤的机制。方法：临床选择符合纳入标准的急性软组织损伤患者共138例，

学位

肿痛酊软组织损伤临床研究

盆腔炎康胶囊治疗慢性盆腔炎（湿热瘀毒蕴结证）的临床研究

目的探讨盆腔炎康胶囊治疗湿热瘀阻型慢性盆腔炎的疗效及安全性，为盆腔炎康胶囊的临床应用提供科学的依据。方法选择湿热瘀阻型慢性盆腔炎患者80例，随机分成盆腔炎

学位

Chronic Pelvic Inflammation/Traditional ChineseMedicine TherapyClinical study

以信任为导向的跨境电商服务设计模型

目的建立跨境电子商务的服务设计模型,以增强跨境电商消费者的信任度和满意度,提升消费者的购物体验。方法根据利益相关者信任框架模型等理论以及服务流程共提取了16个服务设

期刊

跨境电商信任服务设计相关性

乱用胃药有失明之虞

<正> 切记!不论罹患何种病症,都不可以随便乱吃成药。大部分的胃药都含有车莨菪浸膏(extractumscopolia)的成分,由于此种物质可抑制胃液的分泌,对于治疗胃炎及胃溃疡很有效

期刊

胃肠药绿内障

“互联网+”背景下的数学课堂教学的改革与实践

数学知识在平时的生活中处处可见,对学生的生活起着关键的指导效果。在日新月异的互联网高速发展环境下,高中数学教师创新教学模式的任务已迫在眉睫,要求数学教师能更好地运

期刊

互联网+数学课堂教学改革

基于粗糙集理论的文本自动分类研究

其他学术论文