基于文本挖掘的网页分类系统研究与实现

来源 :武汉理工大学 | 被引量 : 4次 | 上传用户:wsb398322830
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,网页的数量也在成倍的增加,如何通过网页自动分类技术有效的组织和管理这些海量数据已经成为Web领域的一个研究热点。分类算法是实现网页自动分类的一个重要环节,它的优劣直接决定了分类系统的分类效率和分类精度。文本分类由文本预处理、特征空间的建立、分类器的生成以及分类结果的评估这四个部分构成。本文在网页自动分类相关技术的理论研究基础上,根据网页内容实现了网页分类,其中包括使用正则表达式完成网页清洗、对网页的正文分词、对照停用词表去停用词、通过基于文档频率的特征选择算法建立特征空间、使用向量空间模型表示网页、使用分类器分类和分类结果评估。重点研究并实现了最近邻分类算法和支持向量机算法,通过实验对比上述两种算法的分类性能。实验结果表明,最近邻分类算法的分类结果要优于支持向量机算法的分类结果,但是所花的时间也比支持向量机要长一倍。在对传统分类算法分析的基础上,针对它们各自的不足通过C#实现了相应的改进算法。针对传统的最近邻分类算法在训练样本数据分布不均匀的情况下会出现误判导致分类效果差的不足,本文实现了基于样本密度改进的最近邻分类算法,通过增大训练样本稀疏区的平均文本相似度,降低训练样本密集区的平均文本相似度,达到改善分类效果的目的;针对支持向量机在多类别分类中分类结果不理想的情况,本文实现了基于最近邻和支持向量机融合的分类算法,先对测试样本用最近邻分类算法进行粗判断,得到测试样本的候选类别,然后再使用支持向量机算法从候选类别中选出最佳类别,达到提高分类效果的目的。实验结果表明,基于样本密度改进的最近邻分类算法的分类效果和组合算法的分类效果均要比传统的两种分类算法的分类效果好,且组合算法的分类效果也要优于基于样本密度改进的最近邻分类算法的分类效果。最后本文在网页自动分类相关技术的理论研究和分类算法实验分析的基础上,设计并实现了基于文本挖掘的网页分类系统。系统包括训练和分类两个功能模块。
其他文献
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术是一种多载波的并行传输技术。该技术利用相互正交的多个子载波传输信息,具有非常高的频谱利用率、较强的抗
密钥共享的概念和密钥共享体制是针对密钥管理中密钥泄漏问题和遗失问题提出的。1979年Shamir和Blakley基于拉格朗日插值法和射影几何理论分布分别独立的提出了(t,n)门限的密
在滑坡的无线传感器网络远程监测系统中,不仅需要准确的采集数据,还要将数据信息及时传给终端用户,并且通过对数据信息的人性化处理使用户能够容易知晓监测信息。论文在完成了分
疲劳驾驶是引发交通事故的主要因素之一,因此,如何有效的监测和防止驾驶员疲劳驾驶,对于避免交通事故,提高交通安全性有着重要的现实意义。作为车载设备,一套驾驶员疲劳预警系统应
随着社会的发展,市场对数据业务需求越来越大,这对现代通信系统提出了更高的要求,模数转换器(analog to digital converter,ADC)作为通信系统的关键模块,成为制约通信系统性能的瓶颈
随着全球科技水平发展的日新月异,国内生产总值的不断提高,相应的对工业生产和国民生活用电的电能质量都提出了更高的要求。大量非线性负载的使用,给电网中注入了不同程度的谐波,谐波含量作为衡量电能质量的重要指标之一,对电网在输电、配电和用电等各个环节,都会造成很大的影响。对电网中谐波含量的抑制情况,近年来已经成为供电部门的一项技术考核指标。工程人员首先要做的工作就是监测其参数值的大小,为后续的抑制工作起到
学位
当前社会科学技术日新月异,使得无线移动通信技术同样呈现出了蓬勃发展的趋势。与之相对的,人们对无线通信业务的需求也在自然而然地不断增长,进而形成了无线频谱资源越来越稀缺
本课题的研究工作是结合导师的山东省科技发展计划项目“基于小尺度传感器阵列的煤岩声发射监测系统研究”展开的。本文所设计的煤岩声发射监测系统采用煤岩声发射原理来连续