论文部分内容阅读
随着Internet的普及和快速发展,Web已经成为富含多种信息资源、遍布全球的共享信息仓库,成为人们获取信息的有效手段和重要方式。Web信息门类齐全、数据量庞大,几乎无所不包,然而面对如此庞大的信息海洋,用户关心的只是其中很小的一部分信息,需要提供有效的搜索引擎或信息集成工具,帮助用户快速、准确地找到他所感兴趣的信息。
在海量Web数据空间中,Web信息通常以网站的形式进行组织,各网站设置自己的分类目录以实现信息页面的按类别组织和发布,形成具有分级层次的分类体系结构。然而不同网站进行类别划分时,标准不统一,分类用语不规范,存在明显的语义差异,难以相互兼容、合并,更无法实现多源Web信息的有效集成。因此迫切需要提供一种有效的信息语义理解和规范化描述方式,以解决网站分类语义异构问题。
为解决网站分类信息的语义异构问题,本文从网站Web信息的层次结构和信息语义两个角度分析网站的分类规律,并以此提出网站的分类体系。在分类体系中,将分类概念作为描述Web信息类别的原子节点,通过分类概念的语义特征体现Web信息类别的潜在语义信息,通过分类概念问的层次关系反映网站信息类别间的层次组织结构,从而实现Web信息的统一理解和规范性描述。
以分类体系为核心,为实现Web信息的语义特征描述,本文的研究内容包括,Web数据信息获取及预处理技术,基于类别的Web文本信息特征词抽取技术,基于特征向量的分类概念语义特征构建技术。主要完成页面文本信息下载和HTML标签解析,从Web文本信息中抽取出描述分类概念内容和主题的特征词并计算特征词权重,构建分类概念的语义特征向量以实现其形式化表示,以及语义特征向量的更新以维护特征向量的准确和实时有效等研究工作。