论文部分内容阅读
目前,因特网上的信息越来越丰富,内容越来越广泛,它已成为最重要的信息源。帮助用户快速、准确地查找和分类网上有用的信息,具有广泛的应用背景和实用价值,已经成为近年来的研究热点。文本的研究目的,一方面是利用数据采掘技术提高检索与分类的准确性。另一方面希望通过对这些问题的研究,在网上信息的知识表示、相似度度量、大规模数据采掘、海量信息的有效利用、检索与分类的算法等方面做一些有意义的探索。本文的研究工作主要包括如下几个方面:(1)基于文本采掘的汉语词性自动标注研究提出了一种获取词性标注规则的文本采掘算法。该算法可以对文本中的词和词性标记两层结构自动进行采掘。在初始发现的标注规则的基础上,提出了基于词的语言学特征的归纳学习方法来扩大规则的适用范围。此外,我们还设计了规则的匹配算法以提高规则利用的性能。实验表明:在原有统计方法的基础上,利用自动获得的标注规则作为补充,可以使词性标注的准确率达到一个新高度。(2)用户兴趣的采掘和发现提出了一种用户不直接编辑兴趣描述文件的动态兴趣学习方法。该方法仅用较少的人机交互,就可以对关键词分类并计算用户的感兴趣程度,从而获得初始的个性化兴趣描述文件以作为兴趣识别的基础。通过该文件,可以用于判断某些文献该用户是否感兴趣,从而实现有效的个性化服务。为了进一步精确描述用户的兴趣或动态跟踪用户兴趣的改变,我们采用本地自主感知Agent来对用户的行为进行感知,实时对用户兴趣进行监测并获取用户感兴趣的相关信息及其感兴趣的程度。这些行为包括用户访问时的停留时间、访问次数、保存、编辑、修改等动作。同时用户输入的关键词也作为动态更新兴趣文件要考虑的因素。(3)基于网页分割的WEB检索提出了一种基于网页内容分割的WEB信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。实验结果显示该方法能够较好的改进检索的精度,并对下一代搜索引擎的设计提供有益的借鉴。