信息过滤技术在网址分类采集系统中的研究与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:luxi0194
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息数量的迅猛增长,"信息过载"、"信息超载"现象引起了人们的重视.信息过滤技术就是为了克服上述现象,减少用户在获得信息过程中的负担,向用户提供数量适宜、质量优良的信息.该文主要研究了基于内容分析的信息过滤技术.首先,该文较系统的综述了中文文本的自动分词技术和Web文本特征提取技术.介绍了三种比较常用的信息过滤模型——布尔逻辑模型、向量空间模型和概率模型,分析了三种过滤模型的优缺点.然后,介绍了两种常见的文本自动分类算法——简单向量距离分类法和贝叶斯算法,并对两种算法性能进行了分析和比较.该文还研究用户的信息需求的表示方法,信息需求的表示方法是影响信息检索和信息过滤结果的重要因素,文中介绍了一些基本的信息需求表示方法,并对各种表示方法对信息过滤结果产生的影响进行了分析和比较,为解决在信息过滤中表达用户的信息需求困难的问题,采用了一种新方法——固定文章集法.在这种方法中,用户可以通过评价一些专门选择的文章来表达自己的信息需求.这避免了用户选择关键词的困难,扩大了用户信息需求表达的空间.最后,该文详细介绍了网址分类采集系统的设计和开发.该系统中使用空间向量模型表示Web文本,采用简单向量距离分类法作为过滤算法,用固定文章集表示用户信息需求,实现了对互联网信息网址的分类和采集功能.
其他文献
现代化的教育工作发展迅速,同学们在中小学的学习阶段,需要拥有舒适的空间,并坚持在体验上不断的提升.中小学建筑空间模式,在于结合同学们的需求,以及环境方面的特点,包括气
随着现代化社会的快速发展和经济全球化的需要,我国的航空运输业进入了快速发展阶段,传统的航空货运管理模式已无法适应当前快速的货运发展需求.现代航空物流管理系统的设计
在现代园林设计中,所受古典园林的影响较大,例如在古典园林设计中,铺装元素对于现在园林景观设计而言具有很大启发意义,因为古典园林铺装技术重点表达了传统文化内涵,情感更
数据中心机房是业务支撑的主平台,他为收集、存储、处理和发送数据各项业务的计算机网络交换、安全、存储、供电、暖通、机房环境监控、综合布线设备提供运行和维护的设施基
建筑室内设施的设计、施工与人们的日常生活密切相关,其中室内给排水消防系统作为建筑室内基础设施,对建筑工程的质量以及其后期使用起到重要作用,在施工过程中注重对室内给
海绵城市成为各级政府解决城市水生态系统诸多问题的重要抓手.然而,目前海绵城市的研究和实践倾向于通过一系列“工程性措施”解决城市的雨洪系统问题,存在偏重“海绵”而轻
生物网络作为一种描述生物分子间相互作用关系的研究模型,在揭示生物体的生长、发育、衰老和疾病等生命系统的基本分子过程和规律中受到越来越多的重视。由于生物系统通常具有
该文的第一章讲解了基于Web的应用程序和异构信息交换系统的基本概念. 第二章简单地介绍了实现系统的Java语言和Java平台技术,并对XML语言进行了概述. 第三章对系统进行设计,
近年来建筑工程施工技术的不断更新以及新材料的广泛应用,在建筑结构设计方面也做出了有效的突破,使建筑功能越来越完善.但建筑功能的不断完善,也使得建筑结构设计变得越来越
计算机的计算模式在经历了其发展的四个阶段后,最终与因特网技术相结合到了一起,发展成B/S模式.而基于B/S模式的Web数据库为动态管理大量的数据,实现数据共享提供了强有力的