论文部分内容阅读
近年来随着居民收入水平的不断提高,人们手中的闲钱逐渐增多、投资意识也在不断地增强。纵观各种投资品类的历史数据,长期来看股票投资的回报率是最高的,选择这一投资方式的人也是最多的,股票相关资讯的数据量在迅速增长,但是面对投资者搜索需求,财经网站匹配的搜索结果却不能让人满意。在财经网站随意搜索一个股票的信息,得到的结果往往偏离主题严重,大多页面都与主题无关。如何对财经网站的数据进行挖掘整理,进而为投资者提供更精准的财经信息一直是研究的重点。为了改善上述现状,本文对传统的PageRank网页排序算法进行了研究和改进。以雪球网为信息来源,设计并实现了基于主题爬虫的股票搜索平台。本文的主要工作内容包括:1.研究了PageRank算法并对其进行改进,提出了SI-PageRank算法。新算法首先针对PageRank算法存在的主题漂移问题,加入了主题相似度判定方法,该方法使用TF-IDF技术提取页面的股票投资相关的关键词,进而使用空间向量模型算法更准确地计算出页面关键词和主题关键词的相似度。其次针对偏重旧网页的问题,加入了时间因子权重,对新发布的网页权重进行补偿,在一定程度上平衡了新旧网页的权重。最后,为了使搜索结果更加准确和权威,加入了作者身份因子和关键词位置因子。使新算法更加符合股票搜索这一主题的搜索工作。2.对平台进行功能测试和性能测试,保证平台实现了预期的效果。对改造前后的算法做了对比测试,实验结果显示改进后的算法在股票搜索领域有不错的效果,主题鲜明、作者权威度高的页面的排名更加靠前,相同样本条件下,改进后算法能较好地改善主题偏移现象和偏重旧网页现象,返回的数据与主题的相关度更高、数据也更准确。