基于条件随机场的中文分词方法研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:kyonizuka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会发展越来越快,政府自身和人民群众对政府要求越来越高。原有的公文检索和管理方法已无法支撑现有工作开展,必须采用基于全文检索系统的政府公文管理系统,目前全文检索系统的关键技术是中文分词,本文采用基于统计模型(条件随机场)的自动分词方法,相较于基于词表或者依赖词表的分词方法具备人力成本低、总体效率高的特点。条件随机场(Condition Random Fields,CRF)模型的中文分词应用到政府公文领域,存在两个不足:现有条件随机场模型采用的特征在政府公文语料分词中准确度不高;基于条件随机场模型的中文分词都注重分词准确率,不注重分词后的易歧义标记和歧义消解,导致歧义消解效果不理想,未能有效的提高分词准确率。因此本文提出了一种融合特征方法,能够有效提升分词准确率(评价指标F值)。在融合特征F值提升达到瓶颈后,提出了基于易歧义标记的歧义消解方法,进一步的提升了分词F值。在此基础上,应用以上方法到全文检索系统,有效提升公文检索的准确率。主要工作如下:1、针对现有条件随机场模型特征在政府公文语料分词中准确度不高,提出了面向政府公文领域的中文分词融合特征,融合特征采用了一元5字结合二元3字特征模板,4词位的位置特征,词长特征和字的类型的优化特征的融合。实验结果表明,融合特征能够取得F值92.84%,比其他特征更加有效。2、采用中文分词融合特征方法后,F值提升达到瓶颈,为了进一步提升分词F值,本文提出了基于易歧义标记的歧义消解方法,该方法通过对稳固词串和稳固词、语料平衡、特征平衡的识别,标记易歧义的分词,然后采用互信息、边界熵、稳固词串和稳固词等方法解决歧义消解。实验结果表明,基于易歧义标记的歧义消解方法能有效提高F值,到达94.42%,相比于其他方法,具有较高的分词准确率、召回率和F值。3、在此基础上,将以上两种中文分词方法应用到成都市规划和自然资源局的全文检索系统中。本文通过调查问卷的方式,采集到成都市规划和自然资源局业务人员日常工作对政府公文检索功能的使用情况,根据业务需求,设计了召回率和人工检索代价指标,对比了全文检索系统和原公文查询系统。系统实际使用测试情况表明,全文检索系统相较于原公文查询系统,能有效的返回与检索的关键字相关度高的公文,具有较高的召回率(93.42%)和较低的人工检索代价(3.38)。
其他文献
飞机作为一个复杂的系统,其上有较多装配件和成品件,此部分产品在飞机上均要实现一部分的功能。若此部分的功能丧失或出现差错,轻则影响飞机一部分系统的功能导致无法执行飞行任务,重则造成飞行事故机毁人亡,所以对装配件、成品件这部分功能性产品在装机前的检查就尤为重要。试验台是验证这些产品功能性是否符合指标的主要设备,通过试验台可以模拟产品在飞机上的使用工况,将不符合要求的产品提前检查出来,避免将有故障的产品
自1990年代中期整个通信行业第一次提出了固网业务与移网业务进行融合的FMC(fixed-mobile convergence)概念。目前来看,通信行业业务类型和方式发展迅速,带动着通信行业的集团客户及个人用户对通讯业务的需求也不断的变化,需求越来越多、越来越丰富,甚至可以用“苛刻”来形容。通信行业用户不仅需要定制、多样化并且流畅的通信业务,而且还要求运营商对服务范围及业务模式进行扩展,满足其不断
近年来,大数据智慧课堂成为教育领域讨论的焦点,运用人工智能技术来创建智能化的课堂学习环境是未来各类学校将要推行的创新教学模式。随着计算机硬件算力的提高以及深度学习时代的到来,行为检测技术将被广泛应用于智慧课堂、云端教育等领域。当采用现有的目标检测算法对教室场景的监控图像进行行为检测时,会出现错检、漏检、定位不准等问题。为解决这些问题,本文构建了新的教室场景图像数据集,并提出了三种新的行为检测方法。
由于飞机整机结构复杂,在飞机装配过程中所涉及的各类设备成品、附件及零组件数量众多,在整机各系统安装到位后,因为排故、改装、替换模型件等原因会对部分附件、零组件进行拆除,因此在对其进行恢复安装后,需按照装配操作规程进行细致检查。因此,通过引入图像识别与机器学习相结合的技术,研究对装配过程进行智能检测的方法,有助于回避当前依赖人力进行舱内检查的弊端,最大限度地排除质量隐患。本文首先对飞机部件装配场景进
近年来随着互联网社区的快速发展,用户产生了大量含有文本的多媒体文件。文本识别技术成为多媒体检索与内容分析审核的核心方法,利用文本检测定位图像中文本区域并进行识别,实现智能化多媒体文件检索归类以及图像内容分析审核。文本识别技术作为多媒体文件中文字信息转变为结构化文本的一种重要手段,在智能信息录入、多媒体检索、内容分析审核、智能穿戴设备等方面得到广泛应用。然而在文本识别真实应用场景中并不能保证获取高质
随着老龄化趋势的到来,帕金森疾病的患病人群数量急剧增加,且有逐渐年轻化的趋势。帕金森病是一种神经退行性疾病,因多巴胺能神经细胞的大量死亡导致,一旦发病,不可逆转。故帕金森疾病患者如能在早期得到及时的诊断和干预治疗,可有效阻碍疾病的发展进程,提高患者的生活质量。但是,目前缺乏经济高效的手段对帕金森病进行早期筛查。基于此现状,本文研究和实现了一套用于早期筛查帕金森疾病的系统。此系统通过手机APP实现,
在新时代信息技术的基础上,电子政务实现了较为快速的发展。在很多行政办公领域都产生了极大的影响,在提高政府机构的工作效率基础上,不仅优化了政府服务的效果,还获得了公众的普遍认可。但是电子政务行政系统,依旧面临极大的信息安全问题,特别是重要涉密信息的安全。政府机构对涉密泄露问题十分担忧,这也是电子信息化进一步发展的核心考虑问题。如今,很多行政机构都存在极强的涉密信息管理的需要,但却欠缺相应的涉密信息管
众所周知,深度学习技术在诸多领域的判别任务上已经取得了飞跃式进展。近五年来,生成对抗网络的提出把图像生成任务也推向了新高度,其中也包括本文的研究主题,文本到图像生成。文本到图像生成是一种条件图像生成任务,它以自然语言书写的文本描述为条件信息,指导或监督生成对抗网络生成符合文本高层语义的高质量图像。生成对抗网络作为目前最受欢迎的生成模型,成为了文本生成图像的主要解决方案。但是,由于生成对抗网络训练困
数据可视化可以将数据展现为不同的图像或模型,满足不同使用者的阅读理解习惯,减少用户对复杂或大规模数据的处理时间,更充分的挖掘信息数据,更快的进入到直观分析阶段,有效实现用户角色从信息化系统办事员到专业事项分析员的转变,同时提供科学管理的支撑保障。常见运用于资本变化、基金可持续情况、劳动力流动分布、政策效果反馈、群众行为数据等的统计。目前社会保险业务经办系统尚处于简单管理阶段,在大数据应用方面还相当
现今社会,“养生”一词频繁登上各类搜索引擎的热搜榜,足以说明当代人对于身体健康的关注程度空前高涨,而其中最不容忽视的就是口腔问题。无论是口腔疾病还是爱美人士想要对口腔进行美化,都离不开对口腔内牙齿的研究。为了减轻医生的负担,目前对于牙齿分割的研究正成为各学者的研究重点和热点。此时诞生的CBCT成像技术受到广大关注,并为辅助口腔颌面诊治提供重要的数据支撑。目前对CBCT牙齿图像分割的方法有多种,但由