支持Web标签推荐的异词同义问题研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:bufegar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的深入发展,社会化标注系统不断普及,标签这一应用受到越来越多用户的关注与使用。标签是对资源的进行描述的词或词组。用户可以随意选择标签对资源进行标注,而不会受到已有分类体体系的限制。标签以其简单易用性被用户广泛使用。但是标签这种不受限制的使用方式也带来了相应的问题。由于对词汇和资源信息的不同理解,不同的用户不太可能使用完全一致的标签来标注相同或相似的资源。这样在标签系统中就出现了大量意思相同或相似的标签。这些标签增加了系统的冗余性,降低了标签的质量。如果不能有效地识别同义标签,会给标签系统带来许多妨碍,例如使用标签对资源进行导航、搜索时,会使很多相关的资源无法返回给用户,降低查全率;在标签推荐系统中,推荐的标签与用户的需要难以达成一致,降低推荐质量。针对上述问题,本文通过对标签同义现象的深入研究,提出异词同义标签的概念以及基于标签语义的异词同义标签识别方法。通过对标签数据的分析,详细阐述异词同义标签产生的原因以及使用特点,并根据标签与资源的紧密联系,提出利用资源语义发现标签语义方法,在此基础上对标签的异词同义进行识别。针对Web文本类的资源,使用概率潜语义分析的方法发现Web文本语义,将Web文本语义表示成文本关键词的向量,引入分类关联规则挖掘的方法来分析Web文本与标签间的关系,使用文本关键词来表示标签语义。为了识别标签的异词同义关系,定义了标签相似度的概念,以度量标签之间的相似程度,使用基于标签字面特征以及基于标签语义的两种方法进行计算,在此基础之上识别标签的异词同义关系。为了体现识别异词同义标签在社会化标记中的积极作用,文本设计并实现了基于异词同义标签的标签推荐方法。该方法依据Web文本的内容,结合异词同义标签,产生完备的、语义上与Web文本紧密联系的标签进行推荐,有利于资源描述与资源搜索。
其他文献
该文第一部分主要介绍了课题的研究背景、可行性,并对AgentX协议进行了重点介绍.第二部分在考虑了对一些工业标准接口和协议提供了支持的基础上,提出了新的安全管理框架,该框
近年来,无线通信发展迅速,越来越多的无线设备进入到社会的方方面面。在频谱需求不断增加的同时,不可再生的频谱资源却日益短缺。如何提高频谱利用率来使得有限的频谱资源得到更
该文首先收集和整理有关网络管理网关的已有研究成果,强调了建立具有自主知识产权的网络管理网关的重要性.在分析Linux内核源代码基础上,给出进程调度、内存管理、文件系统、
ACD是呼叫中心系统中的一项关键技术,ACD的性能直接影响到了整个系统的呼叫分配情况.该文将着重分析外置ACD的工作原理、原有外置ACD模块的瓶颈及其优化原则,并通过ACD优化前
数据挖掘(DATA MINING)是当前较为关注的一个研究领域,关联规则是数据挖掘所能发现的重要知识模式之一。从海量的信息数据库中挖掘出人们感兴趣的、有用的规则,对人们在生产、
人类社会已进入信息时代.信息技术的迅速发展加快了制造企业的现代化与信息化的进程.计算机技术与管理科技的结合促进了现代企业管理技术的形成.现代企业管理技术的目的是通
无线传感器网络是由分布在一定范围的大量传感器节点组成,各节点间多以无线多跳的无中心方式连接,能够协作地感知、采集和处理网络覆盖区域内目标对象的信息,并返回给观察者
目前,软件开发的整体趋势是采用分布式组件技术建立面向对象的、基于网络的、分布的和异构的大规模应用系统,把整个软件系统划分为一个个相互独立的组件,每个组件完成特定的功能
该文探讨人们一直关注的问题:如何构建高效、高质量地传输包括数据、多媒体及实时业务在内的综合业务宽带通信网络,并研究作为解决问题有效途径之一的多协议标记交换(MPLS)中
远程教育作为现代教育技术的形式,有效地牵引着教育资源的优化,给教育思想与技术带来了革命性的变革,已经成为现代教育的必然要求。远程教育要得以顺利、高效的实施,必然离不开高