论文部分内容阅读
网络快速发展的今天,社交网站逐渐渗透到了人们的生活中,尤其近些年来移动互联网日渐风行,而各种社交应用连通了传统网络与移动平台,使得越来越多的资源可以在网络上进行分享流通,信息量急剧增长。社交网络中巨大的信息量在给用户提供海量资源分享的同时也让用户有了信息选择的困难。一般用户很难从自己的众多网络关联中获取到自己真正感兴趣的信息。与此同时,垂直搜索技术得到越来越多的专业用户的青睐,其在各种领域内的应用得到广泛研究。本文将垂直搜索技术应用到社交网站中来帮助用户获取其感兴趣的信息。文章首先对垂直搜索系统中的关键技术作了研究,对聚焦爬虫、搜索结果聚类及半结构化信息抽取的关键算法作出研究并提出针对社交网站网页的性能改进方案。针对传统特征提取方法不适用于社交网站网页的问题,本文中提出一种改进的特征提取方法,综合MI互信息法和x2统计法两种算法在高低频词条上的不同作用性能,同时引入类内词频因素及词条位置因素,提升了特征提取的效果。HITS算法在分析社交网站网页的链接时,存在一系列不合理性,本文在深入研究该算法后在互加强关系的计算及主题保持两方面提出改进方案,聚焦使用改进后的HITS算法指导其抓取策略时,在社交网站网页的抓取方面的性能得到明显改善。另外,本文在搜索结果聚类及半结构化信息抽取方面基于传统算法提出了改进方案。基于K-means算法提出的基于文本平均相似度的聚类算法使得聚类过程对噪音点的抵抗能力得到增强,也使得选择出来的类中心点具有更好的代表性。依据社交网站网页特性提出的单页多记录信息抽取方案支持使用AJAX技术的网页信息抽取。在这两方面的改进经过实验验证,均对垂直搜索应用到社交网站中的性能有很大提升。最后本文设计了党史教育交流平台——铺路石微博并将文中研究开发的垂直搜索系统集成到微博中,向用户进行站外信息的定向推送,集成测试测试表明此垂直搜索系统在网站中的应用效果良好,很好的满足了用户的信息个性化需求。