论文部分内容阅读
随着互联网技术的高速发展,网络中的资源越来越丰富,网络已成为人们获取各种信息、资源的主要渠道。搜索引擎在网络信息检索中发挥着重要作用,但在搜索效率与搜索结果的准确度上,仍不能充分满足人们的需求。此外,网络上还充斥着大量涉及色情、暴力、赌博或者毒品等不健康内容。如何过滤掉这些不良信息,营造绿色安全的网络环境,也给搜索引擎提出了挑战。网页分类技术可为解决如上问题提供一种实现途径。如果一个网页具有了能够代表其自身特征的标签,那么当我们需要从海量数据中搜索自己想要的信息时,网页标签就有助于提高检索效率和精度;当需要过滤掉某些不感兴趣或者具有不良内容的网页时,我们可以通过对网页标签的识别,提高过滤的准确度。基于项目组正在研发的教育浏览器,本研究对网页分类问题进行了研究,以找到一个高效的网页分类算法。主要研究工作包括:1、对网页分类问题的国内外研究和应用现状进行了调研,明确了相关技术基础和研究方法,包括文本分类问题的一般处理过程及分词技术等。2、对网页分类问题中的几个关键机制进行了研究,包括通过编写有针对性的网络爬虫以获取网页信息;对网页进行预处理,以得到网页文本内容;利用中文分词技术对网页文本进行处理,以及对处理后的文本进行特征提取。3、设计并实现了网页分类算法。除了朴素贝叶斯和支持向量机这两种经典文本分类算法,本文还将随机森林算法这一新兴机器学习算法引入到网页分类研究中,并针对网页分类问题进行了改进,提出了一种“半随机森林算法”。通过对三个分类算法进行数据实验,结果表明,本文改进后的随机森林算法具有更优的分类效果,而且它在结构上比SVM还要简单。本文研究不仅丰富了教育浏览器的功能,并为基于教育浏览器的用户行为分析、个性化内容推荐等智能服务与应用奠定了基础。