未登录词识别相关论文
随着近年来网络技术的高速发展,互联网逐渐成为越来越多信息的载体,网络平台每天产生海量的数据,如何高效地处理利用这些文本数据是目......
该文设计并实现了一个汉语自动分词系统,对系统中采用的关键技术进行具体介绍.词典查找是影响系统切分速度的重要因素.该文提出一......
随着Internet的快速发展,Web信息的迅速增加,人们越来越依赖使用搜索引擎来获取互联网上有用的信息。中文未登录词的识别和歧义的消......
《国家中长期科学和技术发展规划纲要(2006-2020年)》实施以来,我国财政科技投入快速增长,科技项目和资金管理不断改进,为科技事业......
随着企业信息的飞速增长,企业信息检索逐渐成为信息检索领域研究的热点,中文分词作为信息检索的文本处理阶段一个重要步骤,直接影......
随着传统互联网和移动通信网络的快速发展,网络侧及对应的终端侧数据的种类和数量也得到了快速的发展,如何快速的获取用户所需要的......
在汉语中,句子由连续的汉字组成,中文分词完成句子从有字的序列转化为词的序列的任务。传统的机械分词方法基于人工维护的辞典,需......
随着互联网信息的发展,盲人应摆脱传统盲文书籍的束缚,享受丰富多彩的信息世界。然而,目前汉字盲文的信息化处理程度较低,盲人能够......
自动分词是中文信息处理的基础课题之一。现有的分词软件和技术主要是针对现代汉语新闻科技等较为规范的文本,对于其他领域汉语文本......
本文提出了汉语信息处理中关于单字构词方式的基本问题 ,考察了目前对于这个问题的研究和应用情况。认为现有的统计性结论在未登录......
在就业招聘信息搜索系统中,如何正确切分机构名是一个非常重要的问题。在对机构名的组成结构进行了深入研究的基础上,提出了机构名的......
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名......
未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名,中国地名和外国译名进行整体识别为目标,采用分解处理策略降低了整体......
自动分词是中文信息处理的基础课题之一。为了克服传统分词方法在处理特殊领域文本时遇到的困难,本文提出了一种新的分词方法,在没......
网络信息的指数爆炸给人们获取与掌控信息带来了困扰,为了挖掘海量信息中的关键因子并以恰当的方式进行组织,本文设计了网络文本主题......
基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实......
藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的......
分词模块是中文搜索引擎的一个重要组成部分,针对分词提出了一种最短路径与共首字歧义词概率的比较相结合的方法,首先寻找最短路径。......
针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法。该方法扩大了分词碎片容量,将未登录词识别问题看成......
藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别......
本论文基于要实现二维图像空间关系特征与描述词对齐这一目的,研究如何将描述句中的"分词碎片"自动识别为描述词,增强对齐后语料的......
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息......
随着信息时代的到来,如何将大量无序的信息及时准确地提取、整理、组织成便于查询检索的形式,已成为研究开发的焦点.尤其是随着互......
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利......
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选......
中文分词是中文信息处理的基础,随着人们对中文分词技术的不断深入研究,越来越多的中文分词器诞生了,开源为大家的学习和交流带了......
随着国民经济信息化的不断发展以及Internet的普及应用,中文信息处理成为一种热门的研究领域。因此,对中文自动分词技术的要求也越......
中文分词是中文自然语言处理的重要任务,其目前存在的一个重大瓶颈是未登录词识别问题.该文提出一种非监督的基于改进PMI和最小邻......
针对制约中文分词算法效能的歧义消除和未登录词识别两大瓶颈,归纳和总结近年来基于词典、基于统计以及基于语义理解中文分词算法......
在语言信息处理的研究中,语料库(特别是双语语料库)的作用日益凸现出来。机器翻译作为语言信息处理研究的一个分支,通过采用语料库技术......
该文结合词向量技术和传统统计量,提出了一种新的无监督新词识别方法。该方法利用传统统计量获得候选新词,然后采用多种策略训练得......
介绍一种基于统计和规则的未登录词识别方法.该方法从网上下载新闻语料构筑语料库用于未登录词识别,识别过程分碎片分词识别和词结......
针对农业垂直搜索中中文分词要求的特殊性,提出-5基于词典和全切分的中文分词算法。该算法首先对经过预处理的网页进行基于词典的......
提出了一种与分词一体化的人名识别方法,根据中文人名内部用字产生潜在人名,可信度较高的潜在人名与其它候选切分词共同组成分词有......
根据中国人名和外国人名的构成特点产生潜在中国人名和外国人名,然后把它们作为节点词加入到句子的分词有向图中,利用上下文信息对有......
为了有效挖掘海量网络数据中的热点信息,设计了网络热点信息发现算法。基于多级滤噪进行切分词拼接,利用特定的噪声库与多级滤噪策......
汉语自动分词是中文信息处理的基本问题。从分词的基本理论出发,对近年来中文分词研究的现状进行介绍,指出了能够大幅度提高未登录......
关键词抽取工作作为自然语言处理中的一个基础课题,为信息检索、文本聚类、自动摘要生成等技术提供基本支持。可以使用户快速方便......
未登录词识别技术对提高文本自动分词和句法分析的准确性有很重要的意义。随着网络社交平台的不断发展,微博(WEIBO,MicroBlog)平台......
本文在介绍分析常用中文分词方法及其特点的基础上,针对地名地址字符串,提出基于地址要素识别机制的地名地址分词算法。该算法基于......
词是最小的能独立运用的语言单位,然而汉语不同于西方语言的一个显著特点是文本中词与词之间没有显式的分隔标记。中文分词是是中......
随着我国各类科技项目申请数量的快速增长,管理部门难以通过人工形式做到科学有效的审查,导致项目重复申报立项的现象屡见不鲜。因此......
文本聚类是文本挖掘和信息检索领域的重要研究课题,而中文自动分词、特征选择和相似度计算等是中文文本聚类研究的关键技术。本文......
为了达到在保障整体分词效率和准确率基础上充分保障公安信息分析重要词汇切分的需求,本文利用公安信息文本的特点设计开发了公安......
提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中......
中文分词不仅是各种中文信息处理技术中使用最广泛的手段,也是信息检索和搜索引擎必不可少的基础性工作。现有的中文分词方法有很......
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词......
中文自动分词,就是利用计算机将连续文本切分为以词为单位的字符序列。全文检索是以文档的全部信息作为检索对象的一种检索方式,较......
中文机构名自动识别是命名实体识别的重点和难点,目前各种解决方案的实际效果还难以满足人们的实际需求。本文提出了一种基于角色......

