【摘 要】
:
伴随着信息技术和互联网的高速发展,文本信息正以指数速度飞速增加,如何在这些海量的文本信息中快速的获得目标信息,合理的管理和使用这些文本信息,已经成为当今亟待解决的问题。
论文部分内容阅读
伴随着信息技术和互联网的高速发展,文本信息正以指数速度飞速增加,如何在这些海量的文本信息中快速的获得目标信息,合理的管理和使用这些文本信息,已经成为当今亟待解决的问题。随着无标度网络模型和小世界网络模型的提出,以及复杂网络中呈现出社区结构的特性,国内外的许多学者开始研究如何从各种规模的网络数据集中有效地发现社区结构,建立基于复杂网络的社区结构。本文将复杂网络引入到中文文本中,通过将文本表示成复杂网络模型,对文本进行特征提取,相似度计算,最终根据社区划分算法来构建文本社区。本文首先介绍研究背景和研究意义,以及文本表示模型、文本特征选择和文本社区构建的国内外研究现状。其次对复杂网络基础理论知识进行了介绍,包括复杂网络的研究历程、图模型表示方法以及小世界网络。再次,本文介绍了社区和虚拟社区概念,以及描述了各个领域内存在的复杂网络系统,最后对社区划分的评价标准模块度进行了详细阐述。将文本经过预处理之后,选取词频大于给定阈值的词汇作为文本复杂网络的节点,同一个句子中词语之间跨度小于等于2的词语连边,计算邻近节点间的相关度,将其作为边的权重,构造出单篇文本的加权复杂网络。在单篇文本的加权复杂网络基础上,计算网络节点的综合特征值,提取出综合特征值较高的节点作为文本的特征词,构建文本的向量空间模型,并计算文本间的相似度大小。在文本集中,将文本间的相似度大小作为边的权重,构建文本集的加权复杂网络,按照本文提出的社区划分算法对加权复杂网络进行社区划分,得到文本社区。实验结果表明,该算法能够有效的对文本集进行社区划分,社区的划分结果符合客观事实。本文提出的基于复杂网络的文本社区构建方法能够成功探测到文本集中存在的社区结构,然而还有许多不足的地方,在如何进行社区特征提取,提高算法的效率等多个方面还需要进一步的完善。
其他文献
在全球遗产事业紧锣密鼓的当下,学科建设对专业人才培养至为关键.作为该领域的先行者之一,日本高校文化遗产专业的建构历程,在特定社会背景下呈现出从“跨学科”到“超学科”
基于对国家竞争力研究成果的回顾和对IMD与WEF的国家竞争力评价指标体系的比较分析,提出国家竞争力主要由国家战略决策能力、国家创新能力和国家产业竞争力等三种子能力构成
认为作为人文科学基础的解释学对情报学人文研究范式的巩固和发展具有积极作用。从解释学角度对实现情报学人文研究范式发展的具体途径进行讨论,包括以人为中心的研究思路、
由COLLNET、韩国科学技术信息所主办并由后者承办的“8th International Conference on Webometrics, Informetricsand Scientometrics(WIS) & 13th COLLNET Meeting”(会议主页h
新的课程标准更多地强调学生用数学的眼光从生活中捕捉数学问题,因此,在数学教学中应重视学生的生活体验,把数学教学与学生的生活体验相联系,把数学问题与生活情境相结合,让数学生
在互联网流行的时代里,web上的信息呈海量的迅速增长,怎样才能在信息的汪洋中找到自己需要的信息,并不是件容易的事情。基于上述问题的出现,有人提出了将互联网变成语义网的
为研究贮藏方式及时间对不同颜色鸡蛋品质的影响,选取大小适中、品质良好的鸡蛋150枚,其中白、褐、粉壳鸡蛋各50枚,同种颜色鸡蛋随机分成10组,5组置于室温保存,另5组置于低温
通过对我国图书情报学期刊网络引文的实证分析,得出如下结论:HTML格式网络引文的比例在逐年下降,PDF格式和动态类网络引文的比例在逐渐上升,维基、博客、论坛等新型网络学术信息
在当前网络环境下,高校图书馆基于学术用户信息需求而建立的各种类型的馆藏文献资源,其内涵和外延发生了巨大变化。馆藏类型日渐纷繁,除了拥有数十万甚至百万册纸质图书外,引
电子资源的大量涌现导致图书馆文献资源的结构发生了显著变化,电子资源和纸质资源的有机结合构成了当代图书馆的馆藏资源。丰富的馆藏一方面满足了用户的多样化需求,但是另一方