藏文网页主题爬虫系统的实现

来源 :电子技术与软件工程 | 被引量 : 1次 | 上传用户:accpaccp1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着藏文信息技术的发展,互联网上的藏文信息呈爆炸式增长,无疑变成了最密集最丰富的网络信息资源,通用搜索引擎的功能无法满足一般用户的需求。信息服务要求更精确、精准,定题采集下的搜索引擎成了新的发展趋势。针对某一领域关注的信息,而非通用搜索引擎下采集广泛资源的信息,丰富的Web资源中仅筛选出用户关心的、针对的信息是本文研究的重点。本文将贝叶斯分类算法用于网页文档分类,通过样本集本训练出教育(■)、政治(■)、宗教(■)三类主题分类器,再与爬虫技术结合从互联网上采集与主题相似的网页集合,这使得不仅满足了用
其他文献
为了在准弹体坐标系下设计单通道旋转导弹的自动驾驶仪,给出了弹体坐标系下的自动驾驶仪结构,通过旋转变换,将弹体坐标系下的自动驾驶仪回路变换到准弹体坐标系下,仿真结果验证了
一般疲劳裂纹扩展试验都是采用恒载荷控制方式,在此基础上增加了3种新的控制方式:分级载荷控制,分级K值控制及恒定最大K值控制来执行K值递减的疲劳裂纹扩展试验.新的控制方式
介绍武汉绕城公路东西湖高架桥T梁体系转换的施工方法和处理措施.
乙肝肝纤维化是慢性乙肝的基础病理改变,是多种因素参与下使肝脏纤维组织过度沉积和纤维分解不平衡的结果。许多肝纤维化患者可进一步发展为肝硬化,在肝硬化的基础上尚有一定比
带状疱疹中医称为“蛇串疮”、“蛇丹”、“蛇窠疮”、“蜘蛛疮”、“火带疮”、“缠腰火丹”等,是以突发单侧簇集状水泡呈带状分布皮疹,并伴有烧灼刺痛为主的病证。中医认为该