论文部分内容阅读
随着信息技术的飞速发展,各类感知数据的数据量急剧增加,人们陷入了数据丰富而有效信息获取困难的窘境。感知数据具有时序性、时空性、异构性以及复杂关联性等特点,从而导致感知数据的语义信息不明确以及信息混乱的问题。因此从海量的感知数据中快速提取语义明确的标签信息将极大的提高人们信息获取的效率。现有的感知数据标签提取方法通常是在聚类算法的基础上进行类别划分,并选取类别中心作为标签信息,然而这些标签的语义信息不准确,且难以理解。为了解决上述问题,本文提出了一种数值型数据和文本型数据联合建模的语义标签提取方法SDL。该方法通过人工标注或网络抓取引入与数值型数据相关联的文本数据作为感知数据标签提取的训练样本,首先对数值型数据和文本型数据分别进行语义标签提取,然后通过标签关联方法实现数值型数据的文本标注。本文的主要贡献包括:(1)提出了一种感知数据的相似性度量方法,通过综合考虑数值型数据与文本型数据的语义相似性,使感知数据间的语义相似性度量结果更准确。并在感知数据的相似性度量方案的基础上,提出了一种新的数值型数据的语义标签提取方法。该方法通过综合考虑局部密度与相邻标签距离这两个特征,使得提取的类别标签在保留准确语义的同时尽可能稀疏。其中,局部密度为在一定的距离范围内的对象个数。同时,考虑类别成员数量这一特征,使包含类别成员数量较多的类别标签,具有较广的语义范围。(2)提出了一种面向简短文本的语义标签提取方法。针对简短文本包含的语义简略且词语重复度高的特性,通过限定简短文本的语义范围,训练得出各词项与指定主题间的关联权重,并依据该权重提取文本语义标签。同时,本文提出了一种新的标签关联方法,通过将提取到的数值与文本语义标签根据语义关系生成标签关联网络。在处理查询任务时,根据查询条件与标签关联网络进行匹配,得到一个或多个语义标签,然后根据语义标签完成对具体数据记录的搜索。本文对提出的所有方法和算法都进行了实验验证,并在真实数据集的基础上进行了广泛评估。实验结果表明,SDL与传统的DBSCAN算法相比,数值型数据的标签提取的准确率上最高有18%的提升。SDL与传统的LDA算法相比,在简短文本标签提取上运行效率平均提升10%,准确率最高提升15%。由此表明,本文提出的方法具备高效性和准确性。