基于主题爬虫的股票搜索平台的实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:wayaya123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着居民收入水平的不断提高,人们手中的闲钱逐渐增多、投资意识也在不断地增强。纵观各种投资品类的历史数据,长期来看股票投资的回报率是最高的,选择这一投资方式的人也是最多的,股票相关资讯的数据量在迅速增长,但是面对投资者搜索需求,财经网站匹配的搜索结果却不能让人满意。在财经网站随意搜索一个股票的信息,得到的结果往往偏离主题严重,大多页面都与主题无关。如何对财经网站的数据进行挖掘整理,进而为投资者提供更精准的财经信息一直是研究的重点。为了改善上述现状,本文对传统的PageRank网页排序算法进行了研究和改进。以雪球网为信息来源,设计并实现了基于主题爬虫的股票搜索平台。本文的主要工作内容包括:1.研究了PageRank算法并对其进行改进,提出了SI-PageRank算法。新算法首先针对PageRank算法存在的主题漂移问题,加入了主题相似度判定方法,该方法使用TF-IDF技术提取页面的股票投资相关的关键词,进而使用空间向量模型算法更准确地计算出页面关键词和主题关键词的相似度。其次针对偏重旧网页的问题,加入了时间因子权重,对新发布的网页权重进行补偿,在一定程度上平衡了新旧网页的权重。最后,为了使搜索结果更加准确和权威,加入了作者身份因子和关键词位置因子。使新算法更加符合股票搜索这一主题的搜索工作。2.对平台进行功能测试和性能测试,保证平台实现了预期的效果。对改造前后的算法做了对比测试,实验结果显示改进后的算法在股票搜索领域有不错的效果,主题鲜明、作者权威度高的页面的排名更加靠前,相同样本条件下,改进后算法能较好地改善主题偏移现象和偏重旧网页现象,返回的数据与主题的相关度更高、数据也更准确。
其他文献
学位
学位
学位
学位
在初中的英语课程中,我们应该反思传统教学中的孤立单元教学,并探讨怎样在优化教学指导上,并把握最实际的策略下进行研讨单元教学整合教育内容的方式,以课程主体内容为核心使之与各章节教学内容有机融合教学,实现让学生在快乐中学习,在学习中进行语言实践的终极目的,从而切实的让学生达到新时代之下的英语素质要求,并能够使用在实际生活当中。
会议
学位
目的 探讨手术患者术后慢性疼痛经多模式镇痛对睡眠质量的影响及机制分析。方法 选取2020年2月至2022年2月甘肃省中医院收治的150例接受外科手术治疗的患者作为研究对象,使用随机数表法将患者分为观察组与对照组,每组各75例。对照组患者接受单一镇痛干预,实施硬膜外自控镇痛,观察组患者接受多模式镇痛干预,实施静脉内患者自控镇痛(PCIA)联合超声引导下腹横纹肌平面阻滞(TAP)。收集两组患者术后发生
期刊
学位
报纸
总结了机器学习算法分类,以及机器学习在心力衰竭病人生存(死亡)、心力衰竭再入院、心脏事件预测中的应用现状,筛选出最能准确评估心力衰竭病人预后的机器学习算法,为临床早期评估心力衰竭病人的预后提供新的依据。
期刊