旅游领域属性抽取方法的研究

来源 :内蒙古大学 | 被引量 : 2次 | 上传用户:szlsh88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用技术的发展与人工智能技术的兴起,如何快速且高效的从日益剧增的互联网数据中获取有价值的数据,是当前自然语言处理领域的重要研究问题。属性抽取(Attribute Extraction),即实体的属性值抽取,是从非结构化文本等数据源中自动抽取出实体的相关属性值,是问答系统(Question Answer ing System,QA)、信息抽取(Information Extraction)、知识图谱(Knowledge Gra ph,KG)等自然语言处理任务(Nature Language Process,NLP)的基础。本文研究旅游领域的实体属性抽取方法,以双向长短时记忆网络-条件随机场(Bidirectional Long Short-term Memory-Conditional Random Fields,BLSTM-CRF)模型为基础,提出一种新的融合残差卷积神经网络与自注意力机制的属性抽取方法。过去有关属性抽取的工作多是基于封闭世界假说(Closed World Assumption)的条件下,或是引入词典,或是引入人工特征。但是这种方法只能发现已有的属性,不能够发现新的属性。除此之外,这些方法还存在大量且昂贵的人力成本问题。本文将属性抽取问题转化为序列标注问题,通过实验验证了模型的有效性。论文主要工作如下:首先,通过爬虫技术爬取了百科类网站以及垂直旅游领域网站的景点文本,并进行筛选、整理、标注构建旅游领域的属性抽取数据集CTFAE,并对该数据集按80%、10%、10%比例划分为训练集、验证集、测试集,为接下来的属性抽取工作做准备。其次,本文首先基于BLSTM-CRF模型,提出基于残差卷积神经网络(Res idual Convolutional Neural Network,ResCNN)的属性抽取模型,该模型使用具有残差学习功能的卷积神经网络,对预训练语言模型Bidirectional Encoder Rep resentations from Transformers(BERT)输出的向量化文本抽取局部特征,然后将抽取的特征与BERT的输出向量拼接,送入BLSTM中捕获文本的上下文信息,最后利用CRF学习标签之间的关系。本文中使用带有残差操作的卷积神经网络与没有使用该部分相比,该操作能够进一步加强文本的向量化表示。然后,本文再次基于BLSTM-CRF模型,提出基于自注意力机制的混合模型。该模型利用自注意力机制的能够无视输入文本之间的距离问题的特点,直接计算依赖关系,学习句子的内部结构特点,将自注意力机制用在BLSTM之后,对B LSTM输出的隐层向量进行处理,最后与条件随机场(CRF)连接,捕捉标签的内部依赖关系。最后,本文融合上述的基于残差卷积神经网络模型与基于自注意力机制模型,同时利用残差卷积神经网络能够加强字嵌入文本的向量化表示与自注意力机制能够捕捉文本的长距离依赖的特点,进一步提出了融合残差卷积神经网络与自注意力机制模型,值得一提的是,该模型在残差卷积神经网络与BLSTM网络之后都有一个自注意力机制层,实验结果证明,自注意力机制对残差卷积神经网络与BLSTM同时有效。通过实验证明,融合残差卷积神经网络与自注意力机制的属性抽取模型与基线模型相比,在MSRA数据集和CTFAE数据集上分别提升了0.89%和1.59%。本文将抽取到的属性根据属性特点划分成单值属性、多值属性,分别采用基于可信度计算的属性融合方法、多值属性融合方法,最终一共获得了4071个高可靠性三元组。
其他文献
计算机网络的蓬勃发展标志着人们进入了一个信息化的时代。随着科学技术的发展,互联网已经融入人们工作生活的各个方面,网络成为推动社会发展的重要工具。然而,人们使用计算
回转窑的熟料烧成是水泥生产过程的重要环节之一,其烧成状态的稳定性不仅影响熟料的煅烧质量,而且影响到分解炉的预热分解和篦冷机的冷却效果。烧成带温度作为回转窑烧成状态
带钢冷轧生产过程中,轧制力是一项至关重要的参数。其预测精度将直接影响最终产品的质量,并有效减小带材的头尾长度,提高原材料的利用率。此外,轧制力大小还决定着轧辊辊缝的
超短超强激光与物质相互作用是当今激光学科研究的前沿方向。作为X射线的主要产生方法之一。利用超短超强激光与单电子相互作用时的Thomson散射产生X射线的优点在于作用模型
近些年,真空电子器件逐渐朝着“五高一小”的目标发展,即高频率、高功率、高增益、高效率、高可靠性和小型化。尤其是所需的电磁波发射源的工作频率逐渐迈向太赫兹频段,传统
人体姿态估计的目的是提取人体的关节所在的位置。研究人体姿态估计可以实现对人体进行更加精细的标注,获取人体当前的身体姿势,进行人体行为识别或动作跟踪。当前人体姿态估
雷达是现代战争中的“千里眼”,是伴随电子战这类全新的战争形式出现的。目前,远程雷达探测技术正高速发展和快速更新。“隐身”则是雷达的对立面,隐身技术是让对手“看不见
2022年北京冬奥会、冬残奥会的成功申办,催动了我国残疾人冬季两项的建立,虽然该项目在2018年平昌冬残奥会上崭露头角,但也暴露出在比赛中运动员的射击技术无法正常发挥这一
在染料及助剂用量、水资源与电能的消耗上,低浴比染色机相比传统染色机具有明显的优势。主动走布染色机是一种新型低浴比染色机,它取代了传统的溢流染色机由喷嘴喷射染液推动
随着近年来移动通信技术的迅猛发展,移动用户数量急剧增加,移动数据流量也将呈爆炸式增长。然而,频谱资源却非常紧缺,因此,用户数量大、频谱资源紧缺的矛盾日益突出。为了解