新词识别相关论文
新词识别作为自然语言处理的基础任务之一,为构建中文词典、分析词语情感倾向等提供支持。目前新词识别方法没有考虑针对谐音词的识......
期刊
自然语言是人类按照某种规则组成的语言,如汉语、英语和法语等。而自然语言处理则是利用计算机对自然语言的形、音、义等信息进行......
在梳理现有新词发现技术的基础上,本文提出了一种根据科技期刊人工标引的关键词获取候选词汇集合的便捷方法,并重点分析了这些候选......
新词识别一直是中文信息处理所关心的话题.本文针对三字新词的构造特点,并以训练语料为例,着重分析了含词尾的三字新词在自动识别......
以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采......
新词识别过程中,使用分词工具进行预分词的方法,受限于训练语料而对某些领域的分词准确率不佳.针对这个问题,本文提出了一种改进方......
中文分词是中文信息处理的基础,也是其一直存在的基本问题,有着极其广泛的实际应用。可以说,在各类中文信息处理软件(系统)中,中文分词......
从Web中抽取和聚合对象信息对于Web数据处理意义重大,因为通常同一类型的对象分布于不同的Web资源中,而这些资源的结构特征迥异,现......
学位
当前随着计算机和互联网技术的普及,人们已经进入了信息呈指数级爆炸式增长的信息时代,每个人在实际生活中每时每刻都在不断地与信......
随着互联网技术的发展和移动通讯工具的普及以及微信、微博等社交平台的广泛应用,以提高交流效率或者表达某种情感为目的的、采用包......
微博新词的出现给短文本分词工作带来了极大的挑战。本文从多个角度对微博新词发现研究进行较为全面地分析。结合微博新词的构词规......
在新词识别领域,研究者的研究阶段处于有效的新词特征挖掘和新词检测模型选择。现有的新词特征主要包括语言知识特征和统计特征。......
学位
文本分类是自然语言处理领域的任务之一,在邮件检测、情感分析、和主题类型等领域都有广泛的应用。文本表示是文本分类的关键和基......
本文对现有的中文分词系统进行了简要的分析和评价,结合复旦分词系统的框架研究得出了一种新的中文分词切实可行的框架。框架包......
新词识别是汉语自动分词的难题之一。在大规模中文自动分词中,新词是造成分词错误的一个重要原因。本文将新词的识别问题看成一种分......
随着互联网的迅猛发展,网络中新词大量涌现。本文提出一种新词识别方法,该方法利用基于PAT-Array的重复字符串抽取候选串,提高新......
随着全球化趋势和国际交流的日益频繁,语言之间的渗透与融合日渐增加,不同语种夹杂的表达方式在生活中也相当普遍,特别是在使用双......
新词识别是食品安全信息处理中的一个难点,新词是造成分词错误的重要原因。利用互信息提取新词特征并采用BP神经网络过滤垃圾词串......
采用词典分词时会遇到未登录词的识别问题.本文提出一种新的中文新词识别方法,用于全文信息检索系统索引的建立.在索引切分过程中......
针对目前分词方法无法识别网络中不断出现的普通新词,设计了一种新的基于规则与统计相结合的分词方法。针对新词不同的构词模式特......
文中通过对95598客服服务中心的电力工单历史数据中反映的热点问题进行建模,实现对海量工单文本内容快速、准确地分类,为管理人员......
为了从大规模语料中快速提取高频重复模式,以递增n-gram模型为基础,使用散列数据结构提取重复串,并提出了一种基于低频字符和层次......
中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用。文中结合提出的新词测间模式特征以及各种词内部模......
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此......
为提高新词提取的准确率,根据新词在时间上的性质引入时间频率函数值特征,提出自动阈值获取算法。针对高处理效率特性,基于Spark平......
中文自动分词是计算机中文信息处理中的难题。介绍一种基于数据驱动的中文分词方法,开发了基于该方法的分词系统,此系统在北大《人民......
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时......
新词识别是中文信息处理的重要课题,但因新词产生的速度快,语法、语用灵活,词典难以及时收录等问题使新词识别成为了中文信息处理领域......
针对新词识别过程中出现大量噪声词和伪新词的问题,提出一种基于生存法则模型的稳定新词识别方法.该方法借鉴自然法则和遗忘定律,......
去除内容相同或相近的新闻是提高搜索引擎关键技术之一。提出了一种基于主题关键词的新闻去重算法。该方法可基于小规模语料库识别......
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gr......
提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分。为丰富中文分词......
行为金融学表示,股市的走势将会受非理性投资者的情感、心理等主观因素的影响。与国外股票市场相比较,我国的股市仍然不够成熟和完......
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因......
对问答系统中的问句理解技术进行了深入研究,提出了对问句信息进行深层挖掘形成问句表征.对问句进行分词、去停用词等预处理;结合F......
近几年,伴随着经济的发展和社会的进步,配电网在电网企业中发挥的作用在不断增大,基于此,要对营配台账予以重视。文章中主要是借助......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
随着互联网的高速发展,微博、微信等文本形式的使用量逐渐增多,对于这类文本的分析理解在自然语言处理领域形成了新的挑战,尤其是......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
电力专业词汇识别是面向变电运检文档进行深入语言理解和知识图谱构建等智能应用的基础。领域无关识别方法的效果不能令人满意,为......
当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远。同时因为新词的构词规则具有自由度大的特点,当前分词方法......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n......
中文分词的关键技术之一在于如何正确切分新词,文中提出了一种新的识别新词的方法。借助支持向量机良好的分类性,首先对借助分词词典......