基于领域本体和多目标蚁群算法的主题爬虫技术研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:dongshengly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络资源的日益庞大和信息更新速度的飞速增长,适应特定领域、特定需求的个性化搜索急需主题爬虫技术的支持。为了提高主题爬虫的搜索质量,本文主要研究了主题模型的构建方法、主题相关度计算方法和主题爬虫的搜索策略,通过本体学习技术半自动构建领域本体,引入多目标蚁群优化算法(MOACO)提高主题爬虫的搜索性能。具体的研究内容和方法如下:(1)针对主题模型的构建,提出了一种基于本体学习技术的领域本体构建方法。首先,通过形式概念分析(FCA)方法从文献资源中获取类和类的上下位关系,构建本体的骨架。然后,采用潜在狄利克雷分布(LDA)主题模型从网络资源中挖掘与主题相关的概念,并将Apriori算法引入生成的主题集合中挖掘概念之间的关系,丰富本体骨架的层次结构。最后,人工对本体进行调整,生成领域本体。本文依据所提出的方法构建了台风领域本体、暴雨领域本体和寒潮领域本体。通过Protégé软件实现领域本体的可视化。(2)针对主题相关度计算,基于领域本体的主题模型,给出了概念语义相似度、网页文本主题相关度和超链接主题相关度的计算方法。分别以“台风”、“暴雨”和“寒潮”为主题,将基于本体学习技术构建的领域本体和基于FCA方法构建的领域本体进行对比试验,实验结果验证了本文提出的基于本体学习技术的领域本体构建方法的可行性和有效性。(3)针对主题爬虫搜索策略,提出了一种基于领域本体和多目标蚁群算法的主题爬虫技术(FC_OMOACO)。本文综合考虑链接结构和网页文本内容构建多目标优化模型,根据快速非支配排序方法和最近最远候选解法(NFCS)选取一组Pareto最优链接,优化超链接选择的多样性,指导爬虫的搜索方向。将蚁群算法引入主题爬虫技术,并通过启发式搜索和正反馈机制提高爬虫的全局搜索能力,尽量避免搜索陷入局部最优的困境。最后,分别以“台风灾害”,“暴雨灾害”和“寒潮灾害”为主题,将FC_OMOACO和文献中其他四种主题爬虫方法进行对比实验,结果表明本文提出的主题爬虫技术是一种更加有效的爬虫方法。
其他文献
研究背景及目的:mRNA翻译调控机制一直是细胞生物学领域的一个重要科学问题和研究热点,这不仅因为它有助于我们掌握细胞生物学行为及功能的发生机制,而且有助于我们了解个体发育以及众多疾病发生、发展的分子机制,为探索疾病的防治提供新的理论和药物筛选靶点。真核细胞mRNA在细胞核中转录、剪切后输出到细胞质中翻译形成细胞蛋白,在细胞质中多种信号通路的调节下进行翻译后修饰,从而发挥蛋白质的生物学功能。机制性雷
深度学习是近几年新兴很快的一个领域。从本质上来说,深度学习是一个满足于各类特定需求的机器学习算法,对比在它之前的相关技术,其在语言和图像处理等方面所达到的效果要远
目的:利用同源重组制备副溶血弧菌vpa0961基因的突变株,通过构建重组质粒制备vpa0961基因突变回补株,运用表型实验和分子生物学实验,研究LysR型转录调节因子VPA0961对副溶血弧菌的生长及毒力相关表型,包括不同盐度条件下的生长曲线测定、动力、溶血活性、生物膜形成能力、小鼠致死毒性的影响,并探讨其对T3SS1基因vpoN、vpa1687和exsB、VP-PAI基因vopB2、tdh2、v
目的:探讨肿瘤相关小胶质细胞/巨噬细胞通过TGFBI调控胶质瘤干细胞异质性和促进胶质母细胞瘤恶性进展的可能作用及其机制。方法:本实验以NCH-421K人源胶质瘤干细胞以及GBM标本为研究对象,结合TCGA、Rembrandt、Oncomine等开源肿瘤数据库,以及rhTGFBI刺激前后NCH-421K细胞RNA-seq结果,通过以下方法,探究肿瘤相关小胶质细胞/巨噬细胞通过TGFBI调控GSCs瘤
自广义相对论建立以来,寻找爱因斯坦场方程的解一直是理论物理乃至数学领域一个非常重要的研究课题。由于爱因斯坦场方程的高度非线性,寻找解析解存在着一定的困难,数值相对
外骨骼机器人是智能设备的一种,主要是通过模拟正常人的运动方式帮助下肢瘫痪的人实现行走的能力。外骨骼机器人集传感、控制、信息、移动和计算于一体,其功能的实现是通过多
目的:在超细晶纯钛表面制备出表征及物理性能良好的TiO_2-HA复合膜层,并获得较佳的制备参数,为超细晶纯钛在口腔种植领域应用提供实验依据。方法:将一定规格的超细晶纯钛及普通纯钛试件,进行微弧氧化处理,微弧氧化电压为400V,频率为500Hz,脉宽为75μs,时间为5min,再采用水热合成法对微弧氧化后的超细晶纯钛及普通纯钛进行水热反应形成TiO_2-HA复合膜层。将试件放入水热合成反应釜内,在1
应力应变传感器可以将外界刺激转化为可识别的信号,这种可识别信号不仅是二维电学信号,还包括可视化的光学信号。为了达到这种可视化目的,就需要向其中引入可视化变色材料。
在当今的互联网大数据时代,作为传递着重要信息的图像,对于人类社会的科研、教育、军事等各个领域都起着极其重要的作用,尤其随着5G技术的到来,这种作用更为明显。然而图像在
Ka宽带卫星通信是卫星通信的发展方向,卫星通信是应急通信的重要支撑,圆极化天线可以接收任意极化方向的电磁波,具有抗干扰能力强的优点因而在ka波频段卫星通信中被广泛应用。传统波导结构(微带传输线、矩形波导、基片集成波导和间隙波导等)设计的Ka波段圆极化天线增益较低不能满足使用要求,集成基片间隙波导具有更低损耗的优势,因此采用集成基片间隙波导设计圆极化天线。本文进行了如下的工作:1.设计了一个应用在K