论文部分内容阅读
随着互联网技术的飞速发展,各类信息巨增,在互联网上每天都有海量信息在生成、传播和存储,人类面临前所未有的信息膨胀。越来越多的人喜欢看一些英文国际资讯,但是读者往往希望看一些关于中国的报道。面对如此庞大的信息网络,人们往往无法在英文资讯中快速定位到有关中国元素的信息。如何设计一个系统,能够科学有效的提取出国际资讯中的中国元素信息,以节省用户的阅读时间,是当下研究者比较关注的问题。本论文首先根据实际需求明确中国元素提取的需求,对系统架构和功能模块进行了详细设计。其次深入研究了中国元素提取的技术方案,提出了中国元素提取回溯策略,采用基于中国元素词典库的匹配方法对条件随机场模型的提取结果进行二次提取操作。最后实现了一个中国元素提取系统。本系统使用了网页信息采集、命名实体识别、文本检索等相关技术。根据用户输入的网址,系统自动采集网页信息,通过训练好的模型对原始文本进行中国元素提取,最终以web形式展示给用户。用户可以使用本系统方便快捷的查看英文国际资讯中的中国人名、地名、美食、文化、机构等信息。另外为了方便一些信息咨询公司的人员进行批量提取操作,本系统还提供了提取本地英文文本的中国元素的服务。基于上述需求与系统的实现目标,本文的主要研究内容和工作主要包括以下几个方面:(1)数据采集:采用Python的Beautiful soup框架从英文国际资讯网采集信息并构建中国元素特征库。(2)模型构建:对比分析隐马尔可夫模型、最大熵模型和条件随机场模型在中国元素提取应用中的效果。设计了基于条件随机场与中国元素特征库相结合的模型。对条件随机场模型提取的结果使用中国元素特征库进行二次提取,以达到更好的提取效果。(3)系统实现:采用基于LNMP架构设计并实现系统,系统前端采用Bootstrap框架,后端采用Django框架,数据库采用Mysql与ElasticSearch相结合的方式。(4)系统测试:对系统的各个模块进行测试与评估。系统的功能和性能均满足设计方案的要求。实验结果表明本文设计的中国元素提取系统能够获得满意的提取效果。对环球时报标记语料库进行开放测试,得到准确率、召回率和F值分别为0.952、0.887、0.913。