个性化信息分发及概念检索的研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 5次 | 上传用户:feifeiml
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网的迅速发展导致了信息的爆炸式增长,面对海量的信息,如何使用户能准确快捷地找到所需的信息(What You Get Is What You Want)成为一个迫切需要解决的问题。本文讨论了个性化信息分发及概念检索的技术,在现有语义资源(知网、WordNet)的基础上,提出多视图概念网络模型(Concept Network-Views Model)作为文档表达和用户兴趣模型,利用概念间的联系来提高信息检索的精度。同时综合考虑个性化中的诸多要素,对用户访问模式和反馈进行聚类分析,设计和开发了系统原型框架,从而使个性化信息分发系统更为有效。在概念检索的研究中,我们则是利用领域本体将半结构化数据和结构化数据关联起来,为用户的查询提供概念级的检索结果。实验表明,利用概念间的联系可以有效提高信息检索的精度。 多视图概念网络模型是本文的核心内容,它的生成可以划分为两个阶段:(1)从词空间到概念空间的变换;(2)从概念到多视图概念网络的扩展。在第一阶段中我们给出了基于统计和规则的分词及词性标注、词义排歧方法,提出了扩展短语的定义及其序列模板挖掘算法,以解决目前分词方法的不足;在第二阶段中提出了能量传播的ConceptRank算法和枢纽概念识别算法,用于准确抽取描述用户兴趣和文档的主题概念,并降低枢纽概念产生的噪声。在此模型的基础上提出两种相关度的计算方法:能量消减算法和概念向量的余弦距离。 对个性化信息分发的研究包括三个方面:用户兴趣建模、潜在兴趣的发现和协同过滤技术。(1)本文提出了基于多视图概念网络的用户兴趣建模方法,阐述和分析了个性化的影响因素。(2)通过分析用户的访问模式可以挖掘出用户的潜在兴趣,本文给出潜在兴趣挖掘的流程和算法,从客户端和服务器端收集个性化数据,进行数据预处理后利用Web日志对用户访问过的内容聚类,并将挖掘出的用户潜在兴趣同样用多视图概念网络表示出来,用于信息推荐过程。(3)协同信息过滤技术同样可以支持个性化信息分发,本文提出了基于用户反馈的用户兴趣小组发现算法,使用ISODATA聚类算法对用户的反馈结果进行聚类,调整用户与文档的兴趣度。作为用户兴趣模型的补充,以解决用户兴趣描述的不完备性。 文档的表达同样以多视图概念网络模型为基础,并通过对HTML文件格式的分析来改善网页内容表达的有效性,给出高性能的词典访问方法和倒排文件索引方法。 要实现概念级的检索,就要解决传统检索方法中的如下问题:(1)传统的信息检索是基于关键词的匹配,面临着一词多义和一义多词的问题。(2)由于Internet上包含了半结构化和结构化信息,在检索过程中如何将它们关联集成起来也是非常必要的。本文对半(无)结构化信息进行了分级表达,从原始信息中抽取出词、短语和概念,并引入领域本体以支持文本与数据库的信息关联,从而实现概念检索。文本分类是信息检索中的重要基础,本文提出基于概念的分类方法,修正向量空间模型中单词正交性的错误前提。
其他文献
研究模糊c-均值聚类算法在电力线路巡检中的应用。针对模糊c-均值聚类算法对孤立点数据比较敏感、实际应用中聚类数目通常都是未知的等不足,提出一种改进的模糊c-均值聚类算
西餐文化在我国的发展使得汉语中出现大量的饮食外来语,这些外来语不但丰富着汉语的词汇,而且被广泛的应用。从中不仅能看到中西饮食文化交流之深入,也能感受到国人的饮食心
古典打击乐器在西方古典音乐的伴奏中中往往有着非常重要的地位。在交响乐队中,打击乐器是乐队的中流砥柱,起到了稳固乐队节奏、烘托音乐气氛的作用,影响着整体的音乐进行。
<正>我们的身体从睡眠状态过渡到清醒状态时,心跳血压、体温、呼吸频率、脑电波都会发生变化。呼吸会从每分钟16次提高到每分钟24次,心跳每分钟加快10次脑电波从每秒8次提高
期刊
计算机网络技术和多媒体处理技术的迅猛发展,使得多媒体信息的安全问题成为目前一个相当重要而又富有挑战性的研究课题。数字水印技术就是在这种背景下产生的并很快获得了业
交流调速的发展可归纳为三个方面:转差频率控制、矢量变换控制和直接转矩控制等新的交流调速理论的诞生,使交流调速有了新的理论基础;GTR、MOSFET、IGBT等新一代的高开关频率
为解决循环自相关函数对多分量信号解调时出现的交叉项干扰问题,文章提出一种基于经验模式分解(EMD)的方法,可有效消除交叉项干扰。
与市政公共租赁自行车不同的是,摩拜和ofo是在“分享经济”背景之下诞生的新鲜事物,因此在短时间内这两家企业吸引了大量资本的关注。共享单车和滴滴的“烧钱”模式显然不同,