论文部分内容阅读
随着Web服务的发展不断深入,RESTful Web服务凭借其轻量级、扩展性等优势得到了飞速发展,但由于大多数RESTful服务文档只是普通的HTML页面,使得如何有效识别和抓取RESTful服务成为服务发现领域面临的一个重要研究问题。同时,移动应用市场也在飞速扩张,并具有应用数量大、用户覆盖广等特点,但由于移动应用信息的纷繁复杂,面临着难以提取和分析移动应用信息以及用户评论信息的问题。在这样的背景下,本文设计并实现了服务的信息抓取和分析模块,包括基于服务爬虫引擎的服务抓取子模块和基于网页信息提取和主题分析的服务信息分析子模块两个部分,能够完成对RESTful服务和移动应用信息的识别、抓取和分析。本文首先介绍了国内外对服务的抓取和分析问题的研究现状,并详细介绍了服务爬虫、RESTful服务识别、网页信息提取和用户评论主题分析等相关领域的技术知识。然后对服务的抓取和信息分析模块的需求进行了分析,并对RESTful服务的识别和移动应用的用户评论主题分析进行了深入的研究。本文提出了基于朴素贝叶斯分类器和向量空间模型的RESTful服务识别方法,能够分别分析网页的文本内容和结构特征并综合得到识别结果,实验验证了本文的识别方法能够得到较高的准确率和召回率。针对移动应用的用户评论主题分析问题,本文采用基于情感分类和LDA主题模型的主题提取方法,提取出正面评论和负面评论的热门评论主题以及主题词,并通过实验验证了本文的主题建模方法能够得到较好的建模效果。接下来本文给出了服务的信息抓取与分析模块的总体设计,并详细介绍了各个子模块的功能和处理流程,通过集成测试验证了本模块能够满足本课题的需求。最后对本文的工作进行了总结并展望下一步的工作。