论文部分内容阅读
随着藏文信息技术的发展,互联网上的藏文信息呈爆炸式增长,无疑变成了最密集最丰富的网络信息资源,通用搜索引擎的功能无法满足一般用户的需求。信息服务要求更精确、精准,定题采集下的搜索引擎成了新的发展趋势。针对某一领域关注的信息,而非通用搜索引擎下采集广泛资源的信息,丰富的Web资源中仅筛选出用户关心的、针对的信息是本文研究的重点。本文将贝叶斯分类算法用于网页文档分类,通过样本集本训练出教育(■)、政治(■)、宗教(■)三类主题分类器,再与爬虫技术结合从互联网上采集与主题相似的网页集合,这使得不仅满足了用