论文部分内容阅读
当今互联网已成为一个巨大的开放式知识库,其中包含着许多有价值的信息。互联网信息呈现形式多样性的特点,如何初步筛选出有价值的网页,是信息抽取的第一要务,也是构建知识库的基础。本文在建立互联网模型基础上,利用Hadoop平台下的Pagerank算法,旨在研究如何在节省时间和空间基础上筛选出有价值的网页,为从互联网抽取有价值信息构建知识库提供解决方案。