基于VSM的中文网页分类特征选择技术研究与实现

来源 :武汉理工大学 | 被引量 : 11次 | 上传用户:feiyangsuc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,网页自动分类技术成为了Web领域的一个研究热点,它在信息检索、信息过滤等多个领域得到了广泛地应用。特征选择是实现网页自动分类的重要环节,它从初始特征空间中选出类别区分能力强的特征项以降低网页文本向量空间维数,提高分类器的分类效率和分类精度。本文在对中文网页自动分类相关技术研究的基础上,实现了分类系统中网页清洗、中文分词、去停用词、特征选择及权重计算生成向量空间模型等模块的基本功能,重点研究并实现了基于统计学习的文档频率、χ2统计量和信息增益特征选择算法。通过实验比较了上述三种特征选择算法的分类性能,实验结果表明基于χ2统计量的特征选择算法的分类性能要优于信息增益法和文档频率法,而文档频率法在特定特征项数目下与χ2统计量法分类性能相当,基于信息增益的特征选择算法虽然分类准确率不及上述两种算法,但其分类的稳定性与χ2统计量法相当,优于文档频率法。在对传统特征选择算法分析的基础上,本文针对它们各自的不足之处进行了相应的改进,并实现了改进的算法。针对传统文档频率法对全局高频特征项过分偏袒,致使特征优化选择出的特征项类间分布不均衡,导致部分类别分类性能低下的不足,本文实现了基于类内相对文档频率的特征选择算法,使用类内相对文档频率进行局部特征选择再取并集的方式取代传统的全局文档频率的特征选择算法。针对χ2统计量法当特征项数目递增到一定程度时对集中度高、文档频率较低、代表性不强的特征项倚重过大,从而导致分类性能骤降的不足,本文实现了将文档频率阈值与χ2统计量相结合的特征选择算法,去除了全局高频特征项和类内低频特征项,改善了传统χ2统计量法对低频特征项过分依赖的缺陷。由于信息增益法总体分类性能表现不佳,因此本文对其进行了全面改进,将类内词频、集中度和类内分散度综合考虑进信息增益法的评估函数中,并采取类内信息增益特征选择法取代了传统算法在类间取最大值的全局选择方式本文通过实现上述的改进算法,并将生成的向量空间模型带入分类器中进行实验,发现改进的特征选择算法对分类系统的性能均有不同程度的改善。
其他文献
随着数字电子技术的飞速发展,数据采集技术(DAQ)已经成为工业生产中十分重要的技术之一,人们对于数据传输的高速性、可靠性、实时性和易操作性的要求也在不断提高。现在,数据采集
在实际工程中,探地雷达(Ground Penetrating Radar, GPR)的数据资料主要依靠GPR专家的经验或较手动的图像分析方法来进行解释,具有很强的主观性,这会导致GPR资料解释的不准确
近年来,移动互联网快速发展,其市场潜力巨大、发展前景非常诱人。基于位置的服务是为用户提供位置相关服务的一种增值业务。该业务可以很好的与移动互联网特性结合起来,随时随地
随着智能视频分析技术的快速发展,视频人数统计已经成为该领域的研究热点。通过对公共场所人流量的统计,可以解决地铁、公交车、机场等公共资源的分配问题,同时对人流过度密
森林是我国重要的资源,它为我国国民经济的发展和人民的生活提供重要的保障。然而,森林火灾的发生对森林资源造成了巨大的威胁,给人类的生态环境以及人民的生命财产安全造成了巨
近年来,随着雾霾等恶劣天气频发,空气中的水滴、粉尘等微小颗粒严重影响光的散射和折射作用,导致户外场景的能见度降低,进而造成视觉成像系统获取的图像存在颜色失真,场景信
传统枸杞分级主要以人工挑拣方式来判别枸杞的大小、颜色及表面缺陷,这种方式因个体主观误差、疲劳程度的不同,致使分级过程和标准不能保持一致,而且耗时耗力,不能满足枸杞分
实时操作系统广泛应用于通信信息领域,发挥着及其重要的作用。知名的实时操作系统有VxWorks、WinCE、μClinux、μC/OS-II 等。论文选择μC/OS-II 作为研究对象,是因为它源代码
肺部结构复杂,内部包含大量血管和气管,发于肺部的疾病也众多,严重影响了人类的健康。随着医疗影像的发展,多种医疗设备可用于检测肺部病情。对胸部CT进行详尽地分析,分割出
随着先进的显示媒体以及数字视频编码和压缩的广泛发展,一系列新的视频格式大量涌现,视频格式转换技术成为相关领域的关键技术。帧率提升算法的主要功能是用来实现不同帧速率