论文部分内容阅读
针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的查全率和查准率,可以作为藏文Web语义搜索研究的参考。