论文部分内容阅读
因特网的迅速发展导致了信息的爆炸式增长,面对海量的信息,如何使用户能准确快捷地找到所需的信息(What You Get Is What You Want)成为一个迫切需要解决的问题。本文讨论了个性化信息分发及概念检索的技术,在现有语义资源(知网、WordNet)的基础上,提出多视图概念网络模型(Concept Network-Views Model)作为文档表达和用户兴趣模型,利用概念间的联系来提高信息检索的精度。同时综合考虑个性化中的诸多要素,对用户访问模式和反馈进行聚类分析,设计和开发了系统原型框架,从而使个性化信息分发系统更为有效。在概念检索的研究中,我们则是利用领域本体将半结构化数据和结构化数据关联起来,为用户的查询提供概念级的检索结果。实验表明,利用概念间的联系可以有效提高信息检索的精度。 多视图概念网络模型是本文的核心内容,它的生成可以划分为两个阶段:(1)从词空间到概念空间的变换;(2)从概念到多视图概念网络的扩展。在第一阶段中我们给出了基于统计和规则的分词及词性标注、词义排歧方法,提出了扩展短语的定义及其序列模板挖掘算法,以解决目前分词方法的不足;在第二阶段中提出了能量传播的ConceptRank算法和枢纽概念识别算法,用于准确抽取描述用户兴趣和文档的主题概念,并降低枢纽概念产生的噪声。在此模型的基础上提出两种相关度的计算方法:能量消减算法和概念向量的余弦距离。 对个性化信息分发的研究包括三个方面:用户兴趣建模、潜在兴趣的发现和协同过滤技术。(1)本文提出了基于多视图概念网络的用户兴趣建模方法,阐述和分析了个性化的影响因素。(2)通过分析用户的访问模式可以挖掘出用户的潜在兴趣,本文给出潜在兴趣挖掘的流程和算法,从客户端和服务器端收集个性化数据,进行数据预处理后利用Web日志对用户访问过的内容聚类,并将挖掘出的用户潜在兴趣同样用多视图概念网络表示出来,用于信息推荐过程。(3)协同信息过滤技术同样可以支持个性化信息分发,本文提出了基于用户反馈的用户兴趣小组发现算法,使用ISODATA聚类算法对用户的反馈结果进行聚类,调整用户与文档的兴趣度。作为用户兴趣模型的补充,以解决用户兴趣描述的不完备性。 文档的表达同样以多视图概念网络模型为基础,并通过对HTML文件格式的分析来改善网页内容表达的有效性,给出高性能的词典访问方法和倒排文件索引方法。 要实现概念级的检索,就要解决传统检索方法中的如下问题:(1)传统的信息检索是基于关键词的匹配,面临着一词多义和一义多词的问题。(2)由于Internet上包含了半结构化和结构化信息,在检索过程中如何将它们关联集成起来也是非常必要的。本文对半(无)结构化信息进行了分级表达,从原始信息中抽取出词、短语和概念,并引入领域本体以支持文本与数据库的信息关联,从而实现概念检索。文本分类是信息检索中的重要基础,本文提出基于概念的分类方法,修正向量空间模型中单词正交性的错误前提。