论文部分内容阅读
云计算的发展使得Web服务技术的重要性日益显著。随着Web服务数量激增,建立高效的存储和管理机制逐步成为服务注册中心(UDDI)的主要研究问题。Web服务分类是 Web服务在 UDDI注册后的第一步处理工作。先借低端UDDI仍采用人工指定的方法添加类标签,这种方式缺乏系统的管理模式,不适用于后续的Web服务发现和组合的自动化,因此本文提出了一个Web服务自动分类机制。 本文首先研究了 Web服务文档建模方法。Web服务文档详细描述了该服务的功能,可以从中抽取关键词作为属性进行文档建模。常见的TF-IDF根据词频来衡量一个 term 对该文档的重要性。但是随着互联网的发展仅仅依靠词频的方法已经不足以来刻画文档特征,term间的语义关系更能体现文档在特定领域内的联系。本文以文本挖掘的方法为基础,采用TF-IDF与语义相似性加权的方法来建立文档的空间向量模型。同时提出了一种新的计算信息量的方法计算语义相似度。该方法利用otology的层次结构,根据概念在otology中的结构特点和关联关系定义其所具有的信息量,进而通过对最小公共节点信息量的共享程度获得两个词之间的语义相似度。将本文的方法与人工判断的结果进行比较根据相关系数验证本文方法的有效性。 其次,为了提高分类准确率,降低数据维度,区分每个类中特征的不同鉴别能力,本文使用了基于类的特征选择方法,使用多目标+遗传算法(GA)+神经网络(RBF)的方法进行特征方案的评价和选择最终得到优化后的特征子空间和RBF分类器。使用该特征子空间和分类器对测试集进行分类实验。 实验中采用OWLS-TC 4.0中的数据进行验证,以分类的准确率(accuracy)和敏感度(sensitivity)为指标对本文设计的算法进行评估。实验结果说明本文提出的TF-IDF与语义相似性加权的建模方法可以改进分类的准确性,提高对当前类的鉴别能力。同时特征选择的加入进一步提高了分类器在两个指标上的表现。证明该方法可以有效得改进Web服务管理机制。