基于知识图谱的电商信息抽取系统的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:re_man
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网经过几十年的发展已经产生了大量的信息,利用这些信息将会产生巨大的经济效益。网页作为这些信息的载体在互联网中多以半结构化的形式存在。以互联网中的网页作为数据源抽取信息的WEB信息抽取技术伴随着互联网的发展而不断发展。电子商务作为互联网众多的应用模式之一,为人们的生产和生活带来方便的同时也产生了大量的商品信息。将电子商务网站中的商品信息进行抽取对商品推荐,市场分析等诸多领域拥有重要的价值。商品搜索结果页和商品信息详情页是电商网站展示商品信息的两类重要网页。这两类网页中因电商平台和商户的广告、推荐带来的搜索结果页噪声和详情页噪声导致现有的WEB信息抽取方法抽取准确率较低。同时,这两类网页在同一电商网站和不同电商网站有相似的页面设计,但拥有不同的页面结构导致现有抽取方法失效。针对上述问题,本文利用现有知识图谱中丰富的概念和实例信息,提出了一种基于知识图谱的电商信息抽取方法。该方法由知识图谱预处理和页面分析抽取共两部分构成,主要研究内容包括以下四点:(1)在抽取方法的知识图谱预处理部分中,提出了一种知识图谱预处理算法,通过计算指定领域中属性在该领域的领域值为页面降噪提供特征信息。(2)在抽取方法的页面分析抽取部分中,将商品搜索结果页和商品信息详情页作为输入,经过的页面分块将页面分割成若干个网页块,根据每类页面的特征和预处理过的知识图谱将网页块分为噪声网页块和非噪声网页块,最后将非噪声网页块经过页面抽取获得电商的商品信息。因商品搜索结果页和商品信息详情页具有不同的噪声和页面特征,所以分别提出了商品搜索结果页抽取算法和商品信息详情页抽取算法来解决上述问题。(3)本文设置了多组对比实验,验证抽取方法的有效性,实验表明本文提出的方法有效的解决了搜索结果页噪声和详情页噪声。同时,该方法较好的适应这两类页面中出现的页面设计相似但页面结构不同的情况。(4)基于本文提出的抽取方法,设计并实现了基于知识图谱的电商抽取系统,经过测试,系统满足各项需求和性能要求。
其他文献
在外语教学实践中,不同的课型、不同的教学任务应有不同的教学模式。大学英语精读课应是一门外语综合课。它既包括语言知识的学习,又包括语言技能的堵养;既应重视语言的形式,叉应
美国西屋公司(Westinghouse)已接管原先由英国核燃料有限公司(BNFL)持有的南非球床模块堆(PBMR)有限公司15%的股份,该股权的转移是BNFL重组过程和英国政府决定出售西屋公司的一部分。
本文简述我国电除尘器生产情况,在火电厂的使用和技术发展情况,提出了电除尘器选择和设计应注意的问题和几点建议。
民族地区的素质教育关系到中华民族的整体素质,关系到中国的未来和发展,对实现中华民族的伟大复兴将产生重大而深远的影响。针对我国民族地区素质教育中存在的问题,采取切实
目的采用DTI检测正常人皮质脊髓束(CST)在大脑脚、内囊后肢及半卵圆中心发育的规律。方法采集120名头部MRI无异常的门诊患者及健康志愿者颅脑DTI数据,按年龄分为10组,每组12名(
采用地统计学方法,以荒漠草原自由放牧草地3种典型"覆沙—侵蚀"微地形地貌为对象,研究不同微地形地貌区域草地植物多样性分布格局对土壤养分、地表枯落物和羊粪量、地表微高程
该文通过对汽轮机进水来源的全面分析,得出管道系统的疏水是汽轮机进水诸因素中最易发生的,并提出了防止疏水进入汽轮机的设计原则,思路和具全方案,供电站设计参考。
目前,燃烧无烟煤的W型火焰锅炉在我国得到了广泛的作用,而制粉系统采用双进双出磨煤机直吹式系统,究间该系统具有哪些优越性,该文试图通过对阳泉第二发电厂双进双出钢球磨直吹式
刀光剑影般的游戏生活传说中的刀锋战士拥有一把无可匹敌的刀剑,它久经战场,正如联想ideacentre K锋行King系列的刀锋式外观设计,它好像是你手中的一把利器,伴你在游戏世界中披荆
本文以SQG系列浅槽重介质分选机的研制为背景,采用FLUENT模拟、实验室试验和选煤厂试验相结合的方法,通过对新型浅槽分选机和传统浅槽分选机的对比,综合研究新型浅槽加上精煤排料轮后,对分选效果产生的影响,以及对新型浅槽分选系统的组配选型进行探究,得出以下结论:从FLUENT模拟结果来看,(1)对于6mm的颗粒来说,水平流流速越低,由于分选时间越长,6mm的颗粒分选效果越好。水平流速的降低能够降低分