论文部分内容阅读
随着互联网技术的发展,博客作为Web2.0的典型代表,已经成为传递资讯、表达意见,将个人空间和社会空间良好结合在一起的传播平台,在人们的政治、经济、文化生活中,扮演着重要角色。因此,如何有效的发现、组织、利用丰富的博客资源,挖掘有价值的信息成为一个很有研究价值的问题。博客按存在形式主要分为两类:门户网站博客和个人独立博客。通常两类博客的推荐博主数目有限,大部分博客曝光率不高,因而只能靠搜索引擎召回,难以满足互联网用户实时、全面获得相关博客信息的需求。为此,本文专注于对门户网站的博主好友以及访客等信息的挖掘,并针对门户网站博客、非博客、个人独立博客,设计并实现了一种基于分类的博主页面识别算法。本文的主要内容包括:(1)建立了一个面向门户网站的博客发现系统。本系统包含一个聚焦爬虫,该爬虫通过获取门户类博客网站中Ajax(Asynchronous JavaScript and XML)异步请求返回的数据,解决了由于Ajax技术在博客中的大量应用所导致的传统网络爬虫抓取链接数远少于页面实际呈现的内容的问题。(2)设计实现了博客主页面识别算法。该算法将博客主页识别看作是一个分类问题。针对门户类博客主页、非博客主页、个人独立博客主页,分别提取了其风格特征——HTML特征、URL特征、文本特征以及DOM树深度、锚文本内容特征等与博客密切相关的多种特征。在此基础上,对比了三种典型的分类算法在博客主页识别中的性能。本文建立了博客发现系统并对该系统性能进行了评测,结果表明,对于应用了Ajax技术的博客网站,本文的博客发现系统比传统爬虫具有更强的博客发现能力。在对博客发现系统所挖掘的博客主页集合进行分析的基础上,设计实现了博客主页分类系统并分别对比了朴素贝叶斯算法、决策树算法以及SVM算法,其中SVM算法获得了最佳的分类效果。博客主页类的查准率、召回率与Micro-F1值分别达到了98%、95%、96%。