论文部分内容阅读
“根据用户的自然语言需求描述推荐用于解决该问题的Web APIs任务集合以辅助用户构建Mashup”是本文研究所追求的目标。然而,Web APIs的数量和种类的快速增加,Web服务描述文档非结构化,以及存在许多功能相似但性能差异较大Web API等一系列问题,使得这一目标的实现变得越发困难。考虑到,主题模型技术能够帮助更好的理解Mashup服务需求文本中所包含的功能信息,以获取其潜在主题分布向量,进而挖掘Mashup服务需求文本与Web API描述文档之间的潜在语义关系。因子分解机模型能够在其模型中加入各种补充信息,因此该模型能够有效降低传统协同过滤算法与矩阵分解方法中Web API历史调用矩阵的稀疏性,进而优化特征组合的方式。基于以上的分析,本文提出融合主题模型和因子分解机模型推荐方法,推荐Top-N Web APIs辅助目标Mashup的创建。本文的主要研究方法如下:(1)融合标签、主题、流行度、共现性的Web API推荐方法(TR-FM)。该方法首先对Web服务(Mashup或Web API)的标签进行扩充,并计算扩充后的每一个标签对于相应的Web服务的重要性权重,以此计算标签层的相似度。接着利用RTM主题模型导出Web服务描述文档主题的分布向量,以计算文本层的相似度。利用Web API的category信息辅助Web API的历史调用次数来计算Web API的流行度,采用经典的Jaccard相似系数来计算Web API的共现性。最后利用因子分解机模型融合以上特征推荐Top-N Web API集合。实验结果表明,该方法在准确率,召回率和F-measure等方面具有良好的性能。(2)基于HDP主题模型与因子分解机的Web API推荐方法(HDP-FM)。该方法探索HDP主题模型导出Web服务(Mashup或Web API)的最优主题分布向量,接着利用增强余弦相似度公式度量Web服务之间的相似度。最后将Mashup之间的相似度,Web API之间的相似度,Web API的流行度和共现性作为因子分解机模型的输入,通过评分排序获取用于推荐的Web APIs集合。该方法在真实的Web服务数据集(爬取自ProgrammableWeb平台)上进行了一系列实验,结果显示该方法在准确率,召回率,F-measure和NDCG@N等方面具有优越性。