论文部分内容阅读
本体理论在信息科学领域受到广泛关注和普遍认同,构建完备且准确的领域本体已经越来越重要。目前国内外许多研究采用领域专家参与的方法来构建本体,但由人工处理大量的数据是非常困难的。为了提高处理效率,本论文运用SOM神经网络对本体构建数据作处理,自动发现构建本体所需的术语、属性及属性间的关系等。 本文首先进行了SOM神经网络数据聚类实验,鉴于它在数据聚类上的优势,决定采用基于语料库的SOM神经网络对本体构建数据进行无监督的自动聚类。其次,在聚类实验中发现SOM神经网络对类间语义距离小的数据边界划分模糊,提出了SOM神经网络与基于划分的聚类算法相结合的算法改进,作为对这种缺陷的一种弥补方法。 在聚类运算中,构造SOM神经网络输入向量是整个运算的关键,文中详细的阐述了输入向量构造所需的技术:上下文窗口的构造、特征词的信息增益值计算和反比文档频数权重评价法(TFIDF法)。本文使用了两种构造SOM神经网络输入向量的方法:(1)针对收集到的数据是无序词汇的情况,基于成熟语料库使用上下文窗口对聚类特征词进行频率统计,先计算并排序特征词的信息增益值,然后选用TFIDF法构造SOM神经网络的输入向量;(2)针对本体构建中收集到的数据是从网络文本中