研报领域的产品词命名实体识别的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:dantezb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理的基础研究之一,命名实体识别的效果的好坏,可能会直接影响到后续研究的效果。在金融研报(以下简称研报)领域中,产品词是一种常见的命名实体,识别这些产品词命名实体能够有助于从研报中挖掘出更深层次的信息,对进行后续的研报研究具有极其重要的意义。本文在分析了大量研报之后,针对研报中产品词命名实体存在的潜在规律,提出了相应的产品词命名实体识别方案,研究方法如下:(1)本文选取条件随机场CRF作为序列标注模型,在引入常用的词、词性等特征之后,提出一种基于word2vec的特征提取及优化算法,该算法首先提取出word2vec词向量中前五个与当前词词向量距离最邻近的词作为优化模型的特征。并在此基础上,结合种子词词典与同义词理论,分别引入种子产品词词频及前后缀搭配词特征来优化模型。该方法不仅丰富了模型的特征,提升了模型的准确率与召回率,且很大程度上改善了模型针对训练过程中的语料稀缺以及标注语料匮乏等问题时的产品词识别效果。(2)本文在原有的CRF模型上,针对应用中出现的问题,提出一种改进的CRF算法,即回溯CRF算法。该算法的第一步,首先结合规则,在模型对序列标注进行概率计算时,对满足规则的词优先置为产品词标签,求得最初的最优序列标注。第二步,通过回溯CRF算法,依次纠正被第一步误置为产品词标签的词,获得最终的最优序列标注。
其他文献
目的探讨晶体液(等渗)、胶体液体对毛细血管渗漏综合征(Capillary leak syndrome,CLS)患者肿瘤坏死因子-α(TNF-α)、白细胞介素-6(IL-6)等的影响。方法依据单纯输入等渗晶体液、单纯
1994年3月-2004年3月我院共行产后混合痔嵌顿手术94例,现报告如下:
内部审计是独立监督和评价本单位及所属单位财务收支、经济活动真实、合法和效益的行为,其目的是促进加强经济管理和实现经济目标。内部审计工作植根于企业内部,在各管理层面和
耳廓外伤临床较常见,尽快重建耳廓外形,对其生理和外形恢复极为重要,若处理不当常致耳廓畸形。我院自1998年1月-2003年12月收治各种耳廓外伤26例,取得较好效果。现报告如下:
心肌炎是儿童时期常见的心血管疾病,近年来有增多趋势,其病原多种多样,据统计虽以病毒为多,但也有其他微生物引起心肌炎的可能。肺炎支原体(以下简称支原体)广泛存在,主要引起呼吸系
目的分析糖尿病足溃疡伴周围动脉病变(PAD)患者的临床特征和危险因素。方法回顾性分析收治的182例资料完整的住院糖尿病足(DF)患者,根据有无周围动脉病变分为有动脉病变组(92例)以
【摘 要】学生社团是指学生在自愿基础上结成的各种大众性文化、艺术、学术团体。社团成员只要兴趣爱好相近,可以不分年级、专业甚至学校的界限(中职学校目前还多局限于本校)。大家在保证完成学习任务和不影响学校正常教学秩序的前提下开展各种活动。近几年,中职教育在发展过程中逐渐意识到学生社团建设的重要性,它不仅是学生在校业余生活的有效丰富,也是校园文化建设、学生德育管理、学校品牌塑造的有力支撑。但中职学校因其
基于互联网技术的第五代测井数据采集系统是飞速发展的互联网技术在测井行业的应用成果,以期实现快速、可靠、实时信息共享。本文采用IEEE802.11协议组建基于主从架构的分布