基于本体的Web页面分类挖掘

来源 :中南大学 | 被引量 : 0次 | 上传用户:pzpsxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web是一个巨大的、广泛分布的全球化信息仓库,它提供了新闻、财经、广告、商务、文化、教育等多方面的信息服务。如何有效地帮助用户从Web上发现他们感兴趣的资源,已经成为一个迫切需要解决的课题。 论文首先介绍了Web挖掘的一些基本概念、方法和技术,阐述了什么是Web挖掘,为什么要进行挖掘。研究了基于主题特征词和统计学知识的Web页面分类挖掘的一般过程和方法。作者针对一个已有的系统进行分析,指出了该方法的局限性——在学习阶段对于训练集依赖性大,导致在训练集不足的情形下分类的精度不高。 针对基于主题特征词和统计学知识的Web页面分类挖掘的缺陷提出了基于本体的Web页面分类挖掘模型。该模型利用本体来表述已有知识,在此基础上对解析后的页面采用多种匹配方法进行信息抽取,并结合三个算法来计算页面与本体的相关度,来提高相关度计算的正确性,建立更为有效的分类规则,以力求提高分类的精度。 建立了一个基于本体的Web页面分类挖掘原型系统,通过实验表明,这种基于本体的方法确实能够在训练集数量较小的情况下,得到较高的分类精度。同时也与原有的系统进行了对比性实验,确实证明了该方法的在训练集较小的情形下,比基于主题特征词方法的能够有更好的精度。 最后对本文的工作进行了总结,并确定了进一步研究方向。
其他文献
随着信息化的迅速普及深入,数据保护和安全问题日益突出,相关的数据安全技术的研究也日趋深入,数据保护和安全备份策略成为计算机安全的重要组成部分。 基于角色的访问控
CRM( Customer Relationship Management: 客户关系管理)既是一种以客户为中心为核心思想的企业经营管理模式, 同时也是一种先进技术的集成系统, 通过对面向客户的各个领域实
元胞自动机(CellularAutomata,简称CA)是由数学家StanislawM.Ulam(1909-1984)与JohnvonNeumann(1903-1957)在上个世纪五十年代提出的,最初用于模拟生命系统所特有的自复制现象,
随着电子技术的发展,液晶显示器(LCD)逐渐淘汰了显像管显示器,成为了流通最广的显示器品种。液晶显示器的生产也渐渐成为了一个热门行业。在液晶显示器的制造流程中,最关键的部
网格是一种新兴的基于Internet的分布式并行处理框架。它能跨多个管理域组织或企业进行资源发现、资源管理、信息交换和资源共享。网格资源管理系统是网格计算的重要组成部分
“储层地质统计分析系统GASOR”是一个基于单机运行的、用于油气储层随机建模的大型应用系统。为了适应石油行业的需求,GASOR系统的工作平台不但要从单机转向Internet,而且还要
网格是一个集成的计算机和资源环境,网格技术是随着网络技术的发展和应用而逐渐兴起的一个研究热点。在网格环境中,所有的单机系统或机群系统都可以作为一个节点,以提供和消
本文针对长城铝业公司的具体情况,分析了原有压力容器监控系统的不足,并在.Net框架下结合使用了OLAP、数据仓库等技术,实现了一个压力容器综合分析系统。系统能够多角度分析
虚拟专用网技术VPN 是近年来一项发展迅速、引人瞩目的网络新技术。所谓虚拟专用网是指以建立私有、快捷、安全的网络为目的,以连接广泛的公共网络为传输媒介,以加密认证为主
信息化水平日益成为衡量一个国家现代化建设和综合国力的最重要标志之一,知识管理也随之成为企事业单位构建现代信息系统的热点,为了迎接知识经济时代的挑战,我国正在加快实施国