基于命名实体识别的商品知识图谱构建及可视分析研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:axuxiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着电商平台的日益发展,产生的数据量也逐渐庞大,如何有效地从各类多源异构数据中挖掘出有效信息成为亟待解决难题。电商平台多采用基于关键词匹配的商品检索机制,匹配范围往往局限于商品标题,商家为了提高自身销售商品的检索率往往会在商品标题中加入对商品特性的描述或优惠信息等文本给商品真实名称的识别带来很大困难。因此,本文将从以下几个方面进行研究。首先,针对电商领域命名实体识别比较困难的问题,使用Seq2Seq模型代替传统的循环神经网络,通过基于自注意力机制的神经网络Transformer对文本特征进行提取,利用条件随机场(Conditional Random Fields,CRF)对文本特征进行分类,提出了基于Transformer+CRF的命名实体识别模型来确定实体所属类别。最终实现了对商品标题中所包含的多种类别实体进行高效且精准地识别。其次,针对电商领域数据存储与管理较为复杂的问题,以命名实体识别算法为核心,设计了知识图谱的构建步骤,通过本体结构定义、信息抽取、知识融合、知识加工和知识存储等步骤完成了电商领域知识图谱的高质量构建工作。再次,针对知识图谱的数据分析依赖较强专业知识的问题,设计并实现了一个商品知识图谱可视分析系统。系统整体采用多图结合的布局方式,使用概览+细节的交互式手段实现了对不同尺度下的知识图谱进行可视化展示,并对其后隐藏的海量数据进行挖掘和探索。此外,还以商品检索和商品画像为例展示了本系统的实际应用。最后,设计了命名实体识别模型实验平台,分析验证了所提方法的正确性和有效性,通过对可视分析中发现的异常进行展示,验证了可视分析系统的有效性,也从侧面反映了本文所构建出的商品知识图谱的实用性。
其他文献
文本分类由于能够在有限的时间内快速且准确的获得文本信息的核心内容成为自然语言处理的一个基础方向。但传统的单标签文本分类难以解决现实场景中的文本语义多样性问题,因此,多标签文本分类逐渐成为自然语言处理文本分类任务中的热门研究方向。本文对多标签文本分类任务进行研究,为了充分捕捉文本语义信息构建了层次Transformer-CNN模型;为了学习文本长距离、非连续的语义特征,通过图结构实现文本建模,并采用
目前传统交通系统逐渐迈向智能交通系统,智能辅助驾驶以及自动驾驶车辆将不可避免出现在未来的交通系统之中,所以急需讨论和研究智能交通系统下智能辅助与自动驾驶车辆参与的交通流特性、安全、通行效率等问题。现在大多数交通流仿真的对象还是传统车辆,以及基于传统交通流模型研究自动驾驶车辆交通流特性。针对上述问题,本文在合理的假设下,对一类重要的自适应巡航控制(Adaptive Cruise Control,AC
水是生命之源,优质的水资源是人类生活和动植物生存的基本保障。然而近些年水污染事件频发,严重影响着社会环境,甚至危害到人类的生活。其中抗生素和农药化肥的滥用现象尤为严重,此类污染物虽水中含量不高,但却对人类身体健康有着很大威胁。传统的水质检测方法通常操作较为复杂,且实验流程耗时较长,不能满足快速精确检测,因此寻找一种快速精确检测此类污染物的痕量检测手段意义重大。基于此本文研究表面增强拉曼光谱技术的水
航天器通常将隔热复合材料粘接在机体表面作为热防护系统以达到隔热的目的。为了航天器的飞行安全,必须保证粘接层不能含有任何缺陷。面向粘接层的检测需求以及隔热复合材料的复杂特性,在检测粘接层时需要穿透复合材料对粘接层进行检测。平面阵列电容成像技术以其灵敏度高、非接触性、检测深度高以及能够单面检测的优点适用于粘接层缺陷的检测。为了实现对缺陷的精确化表征,本文重点在提高重建图像精度方面做了深入研究,其主要研
机动目标跟踪技术就是基于雷达、声呐等各类传感器对目标的观测,得到关于机动目标的一些原始数据信息,通过建立合理的运动模型,以及融合各种滤波方法对目标的运动状态进行估计和预测的技术。该项技术是现代雷达导航系统中的重要组成部分,在军事和民事领域中发挥着极其重要的作用。随着现代科学技术的快速发展,人们对导航系统的精度和可靠性要求越来越高,这给机动目标跟踪技术的理论研究和实际应用提出了更高的要求。基于此,本
低温共烧陶瓷(Low Temperature Co-Fired Ceramics, LTCC)封装能将不同种类的芯片等元器件组装集成于同一封装体内以实现系统的某些功能,是实现系统小型化、集成化、多功能化和高可靠性的重要手段。总结了LTCC基板所采用的封装方式,阐述了LTCC基板的金属外壳封装、针栅阵列(Pin Grid Array, PGA)封装、焊球阵列(Ball Grid Array, BGA
由于水下空间环境物理特性复杂,噪声多源且动态变化,传统的集中式或者采用声呐阵列的目标跟踪方式无法实现高精度的水下定位与跟踪。水下分布式网络因其监测范围大、部署灵活等特点,为水下目标状态估计提供了更加实时有效的数据支持,使得高精度的水下运动轨迹跟踪成为可能。为降低水下环境噪声对观测信息准确性的影响,提供高精度的水下定位与跟踪服务,本文对现有的水下跟踪方法进行综合探讨,并采取仿真模拟的方法对不同方法进
目前,人们一般认为,葡萄糖在胚胎发育的早期起抑制作用,后期则起促进作用。但早期产生抑制作用的机理却没有定论。本实验以昆明小鼠的早期胚胎为研究对象,以mCZB培养液为基础培养液,通过添加葡萄糖和抗氧化剂谷胱甘肽(GSH),对葡萄糖在胚胎体外培养中抑制胚胎早期发育的机理进行初步探讨。在培养不同时间添加葡萄糖对小鼠胚胎发育的影响的实验中,mCZB组、第1~4天组、第2~4天组、第3~4天组和第4天组的囊
随着世界科学的日益发展,人工智能技术在图像检测与分割方面的研究受到越来越多研究学者的关注,其中语义分割是图像检测与分割的一个重要分支,其已在日常生活中得到了广泛的应用。其中DeepLab网络是一种非常有效的深度卷积语义分割网络模型,它对目标图片能较好地进行识别分割,但该网络仍存在一些不足。本文针对如何进一步提高DeepLab网络模型性能展开研究,本文主要工作与创新点描述如下:(1)为了增加网络模型
本文研究了一个mπ≠0时的改进的Skyrme模型,在重子数守恒的新的标度变换下,同时考虑孤立子的转动与振动耦合,通过最低阶半经典近似处理,推出了包括振动与转动耦合在内的、与标度参数有关的孤立子哈密顿,由N、Δ的能级分裂公式定出了理论参数fπ和m,并且计算了核子的静态性、N、Δ的能量。计算结果表明,和原先Skyme模型的预言相比,绝大部分数据有了改进。其结果基本符合于实验值。