藏文网页主题爬虫系统的实现 - 开源共享论文下载平台 - 信丰网

藏文网页主题爬虫系统的实现

来源 :电子技术与软件工程 | 被引量 : 1次 | 上传用户：accpaccp1234

【摘要】

：

随着藏文信息技术的发展,互联网上的藏文信息呈爆炸式增长,无疑变成了最密集最丰富的网络信息资源,通用搜索引擎的功能无法满足一般用户的需求。信息服务要求更精确、精准,定题采集下的搜索引擎成了新的发展趋势。针对某一领域关注的信息,而非通用搜索引擎下采集广泛资源的信息,丰富的Web资源中仅筛选出用户关心的、针对的信息是本文研究的重点。本文将贝叶斯分类算法用于网页文档分类,通过样本集本训练出教育(■)、政治

【作者】

：

洛松求培安见才让

【机构】

：

青海民族大学

【出处】

：

电子技术与软件工程

【发表日期】

：

2018年10期

【关键词】

：

贝叶斯分类器藏文主题爬虫藏文分词藏文网页

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着藏文信息技术的发展,互联网上的藏文信息呈爆炸式增长,无疑变成了最密集最丰富的网络信息资源,通用搜索引擎的功能无法满足一般用户的需求。信息服务要求更精确、精准,定题采集下的搜索引擎成了新的发展趋势。针对某一领域关注的信息,而非通用搜索引擎下采集广泛资源的信息,丰富的Web资源中仅筛选出用户关心的、针对的信息是本文研究的重点。本文将贝叶斯分类算法用于网页文档分类,通过样本集本训练出教育(■)、政治(■)、宗教(■)三类主题分类器,再与爬虫技术结合从互联网上采集与主题相似的网页集合,这使得不仅满足了用

其他文献

单通道自旋导弹自动驾驶仪回路的变换及其简化

为了在准弹体坐标系下设计单通道旋转导弹的自动驾驶仪，给出了弹体坐标系下的自动驾驶仪结构，通过旋转变换，将弹体坐标系下的自动驾驶仪回路变换到准弹体坐标系下，仿真结果验证了

期刊

单通道旋转导弹自动驾驶仪变换简化single channel rotative missile automatic pilot trans

疲劳裂纹载荷控制实验的探讨

一般疲劳裂纹扩展试验都是采用恒载荷控制方式,在此基础上增加了3种新的控制方式:分级载荷控制,分级K值控制及恒定最大K值控制来执行K值递减的疲劳裂纹扩展试验.新的控制方式

期刊

疲劳裂纹恒载荷控制K值递减材料力学断裂力学

武汉绕城公路东西湖高架桥T梁先简支后连续体系转换施工方法

介绍武汉绕城公路东西湖高架桥T梁体系转换的施工方法和处理措施.

期刊

高架桥T梁连续粱临时支座体系转换武汉市绕城公路

浅议乙肝肝纤维化的防治

乙肝肝纤维化是慢性乙肝的基础病理改变，是多种因素参与下使肝脏纤维组织过度沉积和纤维分解不平衡的结果。许多肝纤维化患者可进一步发展为肝硬化，在肝硬化的基础上尚有一定比

期刊

乙肝肝纤维化未病先防既病防变

治寒束热郁型带状疱疹1例体会

带状疱疹中医称为“蛇串疮”、“蛇丹”、“蛇窠疮”、“蜘蛛疮”、“火带疮”、“缠腰火丹”等，是以突发单侧簇集状水泡呈带状分布皮疹，并伴有烧灼刺痛为主的病证。中医认为该

期刊

带状疱疹/中医药疗法中草药/治疗应用寒束热郁型

其他学术论文