串频统计相关论文
专有名词的自动识别(ProperNounDetection)对自然语言处理领域的“信息提取”,“机器翻泽”,“自动问答系统”,“自动摘要”等系统影......
以真实的人民日报语料为处理对象,提出了一种基于大规模语料库的新闻领域新词挖掘的方法。首先对标有时间戳标签的大规模语料进行串......
当前主题分析主要采用基于词表的自动抽词技术,这种方法的局限性在于无法处理知识库中未登录的关键词.因此本文提出了在专家知识库......
本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的......
商品词是电子商务领域描述商品的新词。主要介绍基于购物网站用户搜索日志的商品词发现的方法。该方法从搜索日志中提取用户查询,......
本文通过研究现有中文分词技术的理论和工具,提出一种面向未登录领域词识别的中文自动分词算法。首先,利用已有的中文自然语言处理技......
中文分词是中文文本挖掘的重要环节。中文分词的方法主要有基于辞典与规则和基于统计两种,“基于串频统计和词形匹配的分词系统”在......
网络新概念的发现和识别是信息安全领域的一个基础技术,它可以为网络信息智能处理、网络有效信息识别提供底层支持。通过合理地利用......
提出一种改进C-value的术语抽取方法,即IC-value方法。利用停用词对文本进行预处理后,采用一种基于串频统计的抽取算法提取候选术......
随着社会、经济的飞速发展,越来越多的中文新词语出现在人们的生活中。新词语的出现丰富了语言的色彩,同时也给词典编纂、中文自然......