基于CRF和半监督学习的维吾尔文命名实体识别

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:HUANGKAO2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息.该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法.通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化.实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中.
其他文献
“历史解释”是以史料为依托,以历史理解为基础,对历史事件进行分析评判的态度、能力和方法.因此史料是培养“历史解释”这一核心素养的关键和载体,也是高中历史教学的重要内
我家的窗外,常有鸟儿飞来。先前,主要是麻雀和喜鹊。然而,三年前的一天,我惊喜地发现,飞到这里来的鸟儿有了明显的增多。其中,竟然还出现了几只野鸽子!  显然,对于鸟儿们来说,这里的生存条件发生了可喜的变化。那么,这个变化到底是怎么发生的呢?循着鸟儿们的行踪看过去,我发现原来它们都是冲着一户人家的阳台去的,因为阳台的木板上放着许多鸟食。  这让我大感意外。因为我曾经把放了食物的盘子摆在阳台的一角,试图
期刊
诗意、醉美的218风景道是一条名符其实的“网红路”.如果说在黄山区境内的较为僻静,那么在黟县境内的就显得较为熙攘了.纵观整个黟县地域,处在黄山山脉及其南北两坡上,境内峰
期刊
随着世界服装产业布局结构的横向调整和全球经济一体化的纵向整合,商业模式创新已成为我国从服装生产大国向服装品牌强国进军转变的关键环节,是推动我国服装产业完成结构升级
随着我国保险业进入深化改革、全面开放、加快发展的新阶段,保险业服务经济社会的范围和领域越来越广,承担的社会责任也越来越重:从四川汶川大地震到百年盛事北京奥运、从应对国际金融危机到参与医疗纠纷调解、从养老社区投资到新农合建设、从农险覆盖面扩大到环境责任保险试点启动保险作为我们国家的新兴产业,在探索中国特色的发展道路、如何保障民生等问题的研究上收效显著,保险行业方兴未艾,正在以完备的科学体系,努力提高
1以太网的由来rn最早的以太网应该追溯到施乐公司(Xerox)的PARC (PaloAltoResearchCenter)研究项目,当时为20世纪70年代初,速度2.94Mbps.到了1980年,由数字设备公司(DEC)、英
工资薪金是大多数居民的生活保障,取得较高的薪水,不仅可以体现个人的工作能力,而且提高了生活质量.由于我国工资薪金的个人所得税采用超额累进税率计算,也就是说当工资增加
幂函数的定义、图象及性质的教学过程
县域经济作为国民经济单元,在全面建设小康社会和社会主义新农村的进程中受到社会各界的关注。改革开放以来,吉林省县域经济取得了长足发展。但由于二元经济结构的影响,工业生
创造能力是美术学科中的重要因素,培养学生的创造能力就是培养他们认识美、发现美、创造美、表现美的能力,同时培养他们不拘一格、推尘出新,敢于开拓创新的浅意识.但在美术课
期刊