博客自动发现方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong468
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,博客作为Web2.0的典型代表,已经成为传递资讯、表达意见,将个人空间和社会空间良好结合在一起的传播平台,在人们的政治、经济、文化生活中,扮演着重要角色。因此,如何有效的发现、组织、利用丰富的博客资源,挖掘有价值的信息成为一个很有研究价值的问题。博客按存在形式主要分为两类:门户网站博客和个人独立博客。通常两类博客的推荐博主数目有限,大部分博客曝光率不高,因而只能靠搜索引擎召回,难以满足互联网用户实时、全面获得相关博客信息的需求。为此,本文专注于对门户网站的博主好友以及访客等信息的挖掘,并针对门户网站博客、非博客、个人独立博客,设计并实现了一种基于分类的博主页面识别算法。本文的主要内容包括:(1)建立了一个面向门户网站的博客发现系统。本系统包含一个聚焦爬虫,该爬虫通过获取门户类博客网站中Ajax(Asynchronous JavaScript and XML)异步请求返回的数据,解决了由于Ajax技术在博客中的大量应用所导致的传统网络爬虫抓取链接数远少于页面实际呈现的内容的问题。(2)设计实现了博客主页面识别算法。该算法将博客主页识别看作是一个分类问题。针对门户类博客主页、非博客主页、个人独立博客主页,分别提取了其风格特征——HTML特征、URL特征、文本特征以及DOM树深度、锚文本内容特征等与博客密切相关的多种特征。在此基础上,对比了三种典型的分类算法在博客主页识别中的性能。本文建立了博客发现系统并对该系统性能进行了评测,结果表明,对于应用了Ajax技术的博客网站,本文的博客发现系统比传统爬虫具有更强的博客发现能力。在对博客发现系统所挖掘的博客主页集合进行分析的基础上,设计实现了博客主页分类系统并分别对比了朴素贝叶斯算法、决策树算法以及SVM算法,其中SVM算法获得了最佳的分类效果。博客主页类的查准率、召回率与Micro-F1值分别达到了98%、95%、96%。
其他文献
现今互联网深入到社会各个领域,随着020 (Online to Offline)商业模式盛行,在线业务对于企业日趋重要。由于应用运行环境云端化和在线用户数量日益庞大,不良的应用性能和用户
癫痫作为导致短暂大脑功能障碍的一种慢性疾病,在中国已经成为神经科仅次于头痛的第二大常见病。临床主要表现为痉挛、意识丧失等,会对患者的身心、智力等产生非常严重的影响
随着多媒体技术的发展,视频已成为一种重要的信息载体,视频检索成为一种新的需求。而当前大多数视频检索方法仍基于关键字检索,这种检索方式需要人为定义关键字,既浪费人力也
近两年来,随着深度学习的快速发展,传统方法无法解决的问题正在不断被攻克。特别是在图像、语音和文本领域,深度学习的技术结合更高性能的GPU计算,已经逐渐成为一种趋势。在
在信息化高速发展的时代,信息安全的重要性与日俱增,是世界各国都在面临的一项挑战。口令、IC卡等传统的安全认证方式已经无法满足人们的需求,应需而生的生物特征识别技术已
Web服务具有高度的互操作性、跨平台性和松耦合的特点,使得Web服务在互联网上得到广泛应用。然而用户对Web服务应用要求不断提高,单个Web服务已经不能满足用户的需要。随着Web
随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁。在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广
H.264/AVC是当前最新的视频编码标准,由ITU-T视频编码专家组和ISO/IEC运动图像专家组共同制定。该标准因具有很高的压缩性能和网络亲和性而得到广泛应用,然而这些优点都是以
随着网络的飞速发展和人们需求的快速增长,许多网络商店如卓越、当当网等应运而生。网上购物不但提供了各种各样便宜的商品,并且没有营业时间和空间的限制。用户可以购买任何
随着计算机和互联网等新兴媒体的迅猛发展,如何从海量的网页文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,传统搜索引擎在性能和用户体验上受到了较大的挑战,