WEB信息检索与分类中的数据采掘研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 45次 | 上传用户:pearwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,因特网上的信息越来越丰富,内容越来越广泛,它已成为最重要的信息源。帮助用户快速、准确地查找和分类网上有用的信息,具有广泛的应用背景和实用价值,已经成为近年来的研究热点。文本的研究目的,一方面是利用数据采掘技术提高检索与分类的准确性。另一方面希望通过对这些问题的研究,在网上信息的知识表示、相似度度量、大规模数据采掘、海量信息的有效利用、检索与分类的算法等方面做一些有意义的探索。本文的研究工作主要包括如下几个方面:(1)基于文本采掘的汉语词性自动标注研究提出了一种获取词性标注规则的文本采掘算法。该算法可以对文本中的词和词性标记两层结构自动进行采掘。在初始发现的标注规则的基础上,提出了基于词的语言学特征的归纳学习方法来扩大规则的适用范围。此外,我们还设计了规则的匹配算法以提高规则利用的性能。实验表明:在原有统计方法的基础上,利用自动获得的标注规则作为补充,可以使词性标注的准确率达到一个新高度。(2)用户兴趣的采掘和发现提出了一种用户不直接编辑兴趣描述文件的动态兴趣学习方法。该方法仅用较少的人机交互,就可以对关键词分类并计算用户的感兴趣程度,从而获得初始的个性化兴趣描述文件以作为兴趣识别的基础。通过该文件,可以用于判断某些文献该用户是否感兴趣,从而实现有效的个性化服务。为了进一步精确描述用户的兴趣或动态跟踪用户兴趣的改变,我们采用本地自主感知Agent来对用户的行为进行感知,实时对用户兴趣进行监测并获取用户感兴趣的相关信息及其感兴趣的程度。这些行为包括用户访问时的停留时间、访问次数、保存、编辑、修改等动作。同时用户输入的关键词也作为动态更新兴趣文件要考虑的因素。(3)基于网页分割的WEB检索提出了一种基于网页内容分割的WEB信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。实验结果显示该方法能够较好的改进检索的精度,并对下一代搜索引擎的设计提供有益的借鉴。
其他文献
为了进一步降低机采能耗,从低产低效井治理的角度出发,通过对比举升参数优化、举升方式优化、举升制度优化及开采方式优化的探索,对柔性运行、过渡轮、换机型、转电潜柱塞泵
数据库设计和数据库应用系统结构是影响HIS系统性能重要因素之一,尤其是组织数据表中独立数据项的方法,创建不同数据表间关系是HIS应用程序的基础,它影响编程和程序维护的难度,最坏的情
工笔重彩是一种工笔画的技法,与工笔淡彩相对,也有着与淡彩不同的特征。在动画场景设计中,也常常传承工笔重彩的手法,利用重彩来架构动画场景空间,运用重彩表情达意,对动画场
目的:探讨自体毛发移植术的疗效及围术期护理的有效方法。方法:对98例脱发患者进行自体毛发移植,观察其疗效,并于自体毛发移植患者进行术前咨询、准备、护理,术后伤口及植发
本工作中借助已成熟的量子场论知识,推导出了在树图阶情况下不同费米子相互作用势势函数在动量空间中的解析表达式,对其进行傅里叶(Fourier)变换,将其转换到坐标空间.考虑到
最近研究表明,华北中生代岩石圈减薄不仅是岩石圈地慢减薄,而且下地壳也发生了一定程度的减薄和置换。本文强调下地壳过程,如岩浆底侵、置换和拆沉作用是理解岩石圈减薄机制
汶川地震后,甘肃省的甘南、临夏、平凉、庆阳、陇南等30个县市区受灾,有1206个受灾点急需解决安置房问题。在安装保温板房工作中,将板房钢筋混凝土基础"湿作业法"施工优化为"
机器人是融合控制论、机械电子、计算机、材料和仿生学等多学科的结晶,在实际工程和生产实践中具有广阔的应用前景。本文以五自由度举升平台为研究对象,开展举升过程中的避障
<正>重要性:在中国,高血压是导致过早死亡的主要原因。但对高血压的流行和管理,以及相关心血管疾病死亡的证据还很有限。目标:调查中国高血压的患病率、诊断、治疗和控制,从