基于链接分析和聚类的标签语义分析方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:kwx313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会标注系统的快速发展为互联网信息组织提供了新的方式。它延续了Web2.0以用户为中心的特点,充分利用用户知识来进行数据维护和管理。目前,越来越多的系统提供了对社会标注的支持。无论从支持的形式的多样性,还是从提供的功能的强健性上来说,社会标注系统的不断完善为广大互联网用户提供了更为方便的信息组织、分享以及查询环境。在社会标注系统中,用户可以不受约束的通过标签来对自己关注的资源进行标注。标签是社会标注中最为突出的特色,它不但显式地对资源内容进行语义描述,还隐式地反映着用户的兴趣偏好。其自由使用的特点让用户以没有任何限制的方式来对自己感兴趣的内容进行管理,因此无论什么背景的用户都可以参与到大众分类法的构建当中。然而,如同一把双刃剑,标签的自由性也为社会标注分析带来了很大的困难。首先,标签的歧义性问题严重阻碍了系统中推荐、分类、检索等功能的准确性。再次,数据空间过大的问题为进行快速、精准数据分析带来了很大的障碍。通常而言,标签在社会标注系统中以单词或词组的形式独立存在,但是不同的标签会共同标注相同资源或被不同用户同时使用,这样就提供一种发现标签之间间接关联的方式。因此,本文就从这些关系入手进行分析来解决社会标注分析过程中由标签所引起的一些难题。本文首先对社会标注系统中的基本概念进行介绍,讲解当前系统建模方式、系统应用特点以及社会标注分析过程中的一些难题等。然后,针对存在的问题提出基于连接分析和聚类的两类算法。在基于连接分析算法中,本文对用户以及标注行为进行打分,以寻求系统中权威用户和权威标注行为;在聚类算法中,本文首先对基于主题建模方案进行阐述,然后针对社会标注系统的特点提出基于潜在主题的标签聚类方式。在文章后半部分,通过在实际数据集Delicious和Movielens上进行了大量的实验分析,证实了问题提出的两个算法的合理性和有效性。
其他文献
组管理协议是在网络中实现组播的重要协议,它的主要功能是在主机和路由器之间交换必要的信息,使得路由器知道在连接的网段上有哪些主机需要提供组播服务。   近几年Internet
基于机器视觉的行人检测和跟踪广泛应用于视频监控、三维重构、自主车辆导航等多个领域,对其方法的研究具有十分重要的意义。由于行人本身的一些固有属性、行人之间的遮挡、
近年来随着互联网及计算机控制技术的发展,人们的生活水平不断提高,人们对家居智能化的要求也越来越强烈。嵌入式技术和网络技术越来越深入到了人们的生活当中,人们对居住环
压缩感知,是近几年在信号处理领域出现的新颖的采样理论,该理论显示,通过采集相对较少的感兴趣的信号值就可实现稀疏的或可压缩信号的精确重建,这样就使得信息获取、存储、处理和
随着互联网技术的发展,Internet实时视频传输在远程教育领域起巨大作用,多媒体技术和网络技术在教育板块里的应用是一个热点问题。流媒体(Streaming Media)技术具有边下载边
本文主要研究了云计算环境下的访问控制技术,分析了当前云安全中遇到的用户数据安全与隐私保护的问题。在对当前研究现状进行深入学习和总结后,进行了以下的相关工作:  在复杂
设施花卉是设施农业的重要组成部分,可用来栽培对环境因素要求高的珍贵花卉品种,提高花卉种植的经济效益,处于花卉产业金字塔的顶端。花卉图像的自动分割与特征提取方法研究,
本文对基于《知网》的文本相似度进行了论述,针对本文的研究对象《知网》,对其概念、特殊文档以及结构进行了重点的分析和研究。首先,介绍了《知网》的概念,指出了其中的特有的重
在数字信息时代,图像处理技术在医学、航空航天等领域得到了大量的应用,其中图像分割和图像增强是最具代表性的两种图像处理技术。在很多图像处理算法消耗时间越来越多的情况下
  数据挖掘是在海量的数据中挖掘出潜在的、有价值的信息,这些信息给人们提供帮助。聚类分析是数据挖掘中一个重要的应用。它以“物以类聚,人以群分”的思想,根据对象之间