面向Web3.0的大众分类研究

被引量 : 57次 | 上传用户:byddr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会化软件的发展,越来越多的Web2.0网站以应用的开放性、技术的渗透性和信息传播的交互性等特性及其读写并存的表达方式、社会化的联合方式和便捷化的体验方式等优势,影响和改变着人们的工作和学习方式;同时,Web2.0自身具有的开放性、去中心化、聚合性、高度交互性和创新性等特性,也使得越来越多的用户参与到网络信息的创造和发布中。然而,一方面,伴随着信息源和信息量的激增,衍生出了信息杂乱无章、信息纯净度和可信度降低、搜索引擎精准度下降等问题;另一方面,用户迫切希望通过便捷的互动交流和协同共享方式来及时准确地获取符合自身需求的信息和知识。面对这些问题,注重信息筛选与个性化信息聚合,以“个性、精准和智能”为核心理念的Web3.0模式应运而生;这一新型模式为问题的解决带来了新的希望。Web3.0是以Web2.0为基础,因此,大众分类(Folksonomy), Web2.0环境下产生的新型信息分类法仍然是Web3.0环境下的主要信息分类方法之一。但是,大众分类在给网络用户提供方便、自由的标签标注和检索的同时,也存在着诸如标签的多样性、模糊性、扁平化结构和语义关系缺乏等缺陷;这些缺陷制约着Web3.0“个性、精准和智能”这一核心理念的真正实现,因此,从Web3.0对大众分类法的需求出发,对大众分类体系的优化展开相关研究,是非常有必要并且具有重要的意义。基于此,本文综合运用社会学、语言学、数学统计、计算机科学等多学科的理论,使用实证分析、数学统计学、社会网络分析、数据挖掘等方法,充分利用中文语料资源对大众分类的优化展开研究。全文共分为8章,每章的具体内容如下:第1章,对本论文的选题背景、研究现状和研究意义进行了全面的阐述,提出了研究目的和研究内容,并对研究方法和研究思路进行了介绍,总结了本研究的主要创新点。第2章,主要是针对研究所涉及到的相关理论进行简要述评。首先,对大众分类的定义与内涵、大众分类的运行机制、大众分类的类型、大众分类的基本特征等进行阐述;接着对语义网的基本思想、体系结构、本体论等内容进行了归纳性的介绍:然后,对Web3.0的产生、Web3.0的内涵和特征、Web3.0的技术支撑以及现状等进行分析总结;最后剖析了大众分类、语义网及Web3.0三者之间的关系,为后续的研究提供了思路。第3章,首先分析了标签的内涵及特点,接着通过典型中文Web2.0网站展开标签的实证研究,主要分析了标签的语言特征、标签的分布规律、标签与用户和资源的关系、标签的质量及规范性、标签的分类体系及标签的推荐等,从而明晰了大众分类体系的运行机制和不足,为后续研究思路的形成提供依据。第4章,首先比较分析了大众分类与情报检索的受控语言之间的异同;接着阐述了标签库的构建方法,与此同时,把中文语义词典《同义词词林》引入到标签库的构建中,通过词语相似度比较来规范标签库中的语词;然后从标签的推荐、用户管理机制、以及垃圾标签处理几个方面探讨了用户标注的控制;最后分析了用户标签优选的机制。本章研究的目的是提高标签的质量,为挖掘标签间的语义奠定基础。第5章,首先详细地剖析了Tag资源自动分类的过程,构建了Tag资源自动分类的算法模型,在Tag资源的自动分类模型中,借鉴了文本自动分类的思想,用标签的使用频率表示Tag资源的向量空间,并在Tag资源的向量表示中,引入《同义词词林》进行向量的语义表示,从而提高自动分类的精度;接着分析如何利用标签库构建标签的层级,并通过内容管理系统Drupal介绍了标签层级化的实现方法。本章的研究主要是结合传统分类法的思想,构建标签的层级,从而为用户提供标签和导航,进而提高标签的检索效率。第6章,首先分析了标签的聚类及其相关算法;接着分别从标签的共现分析、标签的向量表示、关联规则挖掘三个方面探讨了标签或Tag资源的自动聚类,在聚类算法的选择上,综合考虑不同聚类算法的优点,并基于不同的数据模型选择了不同的聚类算法,同时在标签样本数据集进行了理论上的验证,证明了这几种算法的可行性。这部分的研究为标签与本体的结合奠定了基础。第7章,首先探讨和分析了标签概念空间的构建,并分别运用不同的算法构建了标签的层次空间和网状空间,同时用实例证明了其可用性和有效性;接着详细地分析了标签与本体的映射机制和方法,并在进行概念的匹配过程中,引入了另一个中文语义词典《知网》进行概念间的相似度比较,增加了匹配度的可靠性;最后从标签的语义控制入手,提出了标签本体模型的概念,并对目前典型的标签本体模型进行详细地比较,同时以SIOC本体模型为例,介绍了标签的语义控制过程。本章的内容主要是围绕标签语义关系的提取展开相关研究,其研究成果有助于语义网(Web3.0)的最终实现。第8章,对论文进行了总结,总结了论文的主要研究内容,得出的主要结论,主要创新之处,并剖析了研究中存在的不足,基于此展望了未来的研究重点和方向。
其他文献
全球突发性自然-人为复合灾害事件日渐频繁,造成严重的生态环境破坏和人员伤亡,如何构建科学合理的防灾减灾体系已成为全球、国家和区域可持续发展进程中共同面临的科学难题
分布式馈线自动化系统(FA)要求配电终端不仅要能够实现即插即用技术,还要能够根据其内部拓扑信息实现故障定位、隔离以及非故障区域的供电恢复功能。为了实现系统的灵活配置
本论文旨在探讨形容词在文学写作中的呈现,尤其关注的是形容词在文学写作中的修辞、叙事以及审美三个维度上的作用,着重探讨形容词是如何打开文学写作空间这一问题。主要采取
<正>"年份英雄"发布词36年,一锤一锤地敲、一寸一寸地凿,凿出一条万米长渠,凿出小康的希望。"就是拿命去换,也要干成!"清泉终于流淌在崇山峻岭间,老支书的汗水与泪水,韧劲和
【正】《陶雅》中说:“世界之瓷,吾华之最;吾华之瓷,以康雍为最.”青花万“寿”纹大尊就是一件素负盛名的康熙育花瓷精美之作,它是融书法与陶瓷艺术为一体的典范.该尊高77、
人口老龄化是社会经济发展到一定阶段的必然产物。纵观世界发达国家老龄化历程和应对实践,可获得不少启示。结合现阶段我国老龄化的现状及基本特点,从应对老龄化的关键环节—
以服装款式设计为例,以部件拼接成款式为依据,介绍了款式设计系统的数据库设计的数据结构和数表结构设计,并从图形图像选择、服装零部件拼接等几方面分析了服装零部件数字化
目的了解儿科护士隐性缺勤现状及影响因素。方法采用隐性缺勤量表及领悟社会支持量表对河南省8所医院1503名儿科护士进行问卷调查。结果儿科护士隐性缺勤总分为18.24&#177;4.
科学技术和信息通讯技术的发展,以及经济全球化给人们社会生活的各个领域带来了深刻的变化,传统的一次高等教育收益终身的时代已经过去。参与在线实践共同体已成为人们学习的
期刊