粗糙集的不确定性度量及其在文本分类中的应用研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:moete
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,人类社会每天都会产生大量的数据信息。面对如此庞大的数据信息,迫切的需要能够处理大量数据的有效方法。粗糙集理论作为一种能够有效处理数据并进行知识获取的数学工具就应运而生。由于经典粗糙集模型要求比较严格,使粗糙集在实际应用中受到限制,因此概率粗糙集、变精度粗糙集以及决策粗糙集等扩展模型被提了出来,以便提高粗糙集理论在实际应用中的容错能力。近年来对这些扩展粗糙集模型的研究极大的丰富了粗糙集的理论,然而仍有一些问题值得进一步研究,如这些扩展粗糙集模型的不确定性如何度量,在粒度变化的情况下它们的不确定性将会如何变化,以及在文本分类实际应用中,如何将粗糙集理论应用到文本分类当中,得到一个分类精度和分类效率都比较好的算法。本文在前人研究的基础上主要做了以下几方面的内容:首先,针对概率粗糙集、变精度粗糙集以及决策粗糙集这类带有参数的扩展粗糙集模型,以概率粗糙集为例子进行了认真的研究分析,从三个域(正域、负域和边界域)考虑,提出了一种新的概率粗糙集模型的不确定性度量公式。并根据增量信息所带来的不同分类效果定义了三种增量信息。在此基础上讨论了知识粒度变化情况下,概率粗糙集模型的不确定性的变化规律。其次,根据提出的不确定性度量公式,得到了粗糙集近似集的不确定性度量公式,并讨论了在阈值?变化的情况下,粗糙集近似集的不确定性的变化情况,并通过实例说明了结论的正确性。最后,在粗糙集近似集理论研究的基础上,将近似集模型应用到文本分类实际应用中。针对KNN文本分类算法效率低的问题,提出了一种基于粗糙集近似集的KNN文本分类算法,该算法在保证分类精度基本不变的情况下能够极大地提高分类效率,并通过实验证明了该算法的有效性,进一步促进了粗糙集理论的实际应用研究。
其他文献
儿歌只能当成孩子成长过程中的“零食”,不可当作生命中的“主食”。近日.在重庆市音乐与幼儿素质教育研讨会上,幼教专家告诉家长:“整天让孩子听儿歌、学儿歌、唱儿歌。走入了幼
期刊
我国广大城镇围产期保健工作已形成多层次、系统化管理系统,住院分娩率及产科质量和技术不断提高,死产及新生儿死亡率呈下降趋势,从而使死胎在围生儿死亡率中所占的比例相对
本文对短切碳纤维水泥基复合材料的屏蔽性能进行了实验研究,结果表明,碳纤维水泥基复合材料在频段9KHz-1.5GHz范围内具有良好的屏蔽性能,屏蔽效果达40dB。
目的探讨钛镍记忆合金组织吻合器在骨科手术中的应用价值。方法选择骨科30例手术治疗的患者,随机分为两组,观察组(15例),术中采用钛镍记忆合金组织吻合器缝合皮肤切口。对照组(1
目的通过对孕中期(孕15~20周)母血清中游离β-hcG和AFP检测,研究血清标志物与某些产科并发症的关系,以期早期发现,早期诊断产科并发症。方法对妊娠15~20周孕妇,抽取静脉血,检测
详细分析沙滩清洁车液压阀块的设计原则和步骤,运用Pro/E软件三维参数化设计对液压阀块实体建模,利用与Pm/E无缝集成的Pm/M进行有限元分析.结果表明:沙滩清洁车的液压阀块整体结构性
该文综述了甜瓜不同生理期的芳香物质种类及含量变化,并对电子鼻、气相色谱-质谱联用技术、气相色谱-嗅觉辨别技术在甜瓜香气成分分析领域的应用予以阐述,以期为甜瓜香气的进
随着神经性厌食的普遍化和严重化,对其发病机制和治疗的研究也有了新的进展,本文就这些研究进展,作一简要综述。
黄冈市英山县位于大别山南麓,地处鄂皖两省交界,县内宗教文化资源十分丰富,现有宗教活动场所168处,其中道教文化圣地、武当南宗发源地南武当山在其境内。近年来,英山县民宗局
随着国家养老保险制度的不断改革完善,企业年金逐步实施,机关事业单位职业年金即将推开,年金问题开始走进公众的视野,成为大家热议的话题。那么,企业年金是夫妻共同财产还是