n-Gram模型相关论文
中医医案是中医医生学习临床经验的重要文献资料,对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验,加速中医传承。为......
随着互联网在社会进程中的快速发展,人们的生活越来越离不开网络,在使用网络的过程中,用户的身份及行为信息也都会被保存在网络上,......
随着计算机和互联网技术的发展,网络安全问题日益突出,入侵检测系统是维护网络安全的重要手段。目前,入侵检测系统中所开发的模型......
针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法。采用W......
文本自动校对是一项无论在实际应用还是在科学研究中都十分重要的工作.该文全面调研了现阶段国内外文本自动校对研究的现状.国外在......
网页中包含着大量的HTML结构信息、超链接和噪音信息,因此网页分类可以看成是半结构化的噪音环境下的文本分类问题.在互联网迅猛发......
统计语言模型是上世纪80年代兴起的语言建模方法。经过20多年的发展,它已经渗透到了计算语言学的各个层面,并且在以下各个领域都取得......
随着Internet的快速发展,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但随着Interne......
随着互联网技术的飞速发展,网络安全越来越受到人们重视。恶意病毒检测是信息安全领域一个重要课题,其中对HTTP攻击检测是新的研究热......
在大规模的文件存储系统中,元数据访问性能的优化对文件系统的整体性能提高有着非常重要的影响。为了使元数据服务的性能达到最优,......
在已经到来的Web 2.0时代,搜索引擎在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对搜索引擎的要求也越来越......
随着互联网和信息处理技术的飞速发展,电子书、电子报纸、电子邮件等电子文本已成为人们日常生活的一部分,同时文本错误也越来越多......
航天技术的飞速发展累积了大量的航天情报信息,这对情报管理工作提出了更高的要求,传统的人工管理方式已经不能满足需求,为了更加......
文本校对是蒙古文自然语言处理的基础工作之一,文本校对工作的推进将直接影响到蒙古文信息处理工作的有序开展。为了解决传统蒙古......
医学影像分类技术是计算机辅助诊断中的关键技术,但是“语义鸿沟”、数据不均衡、维数灾难等问题阻碍了分类模型在临床中的推广。......
本文采用自然语言处理技术,通过分析中文文本一般错误类型,并结合新闻领域文本的特征,确定研究范围为基于同音词替换产生的短距离......
为解决网络应用加密传输中大部分分析加密流量的方法忽略通信维持的简化阶段的流量分类,并且网络中应用指纹有大量重复的问题,提出......
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法.充分挖掘训练......
本文针对多媒体文档的融合和提取进行研究和试验,提出了一种多媒体文档融合方案对教学场景中的视频、声音、教案数据和操作序列等......
提出一种基于虚词停顿的中文分词消岐的模型.首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双......
近年来,智能人机交互在人们的日常生活中占据了越来越重要的地位。随着人机交互的不断发展,要求人们使用更加直观快捷的交流方式。......
摘要:哈萨克语是组成结构复杂的黏着性语言,哈萨克语词干提取词缀提取对哈萨克语信息处理领域具有很重要的意义。从哈萨克语粘着性特......
本文运用语料库语言学统计与规则相结合的方法对中文文本自动查错的有关问题进行探讨,运用词二元与三元接续关系进行查错,主要依据......
针对当前垃圾邮件账户撰写虚假在线评论,降低评论网站可信度的问题,提出一种基于自然语言处理和机器学习的短文本作者识别算法,该......
Alarm systems play important roles for the safe and efficient operation of modern industrial plants. Critical alarms are......
本文阐述了基于统计的计算语言模型的基本原理,并综述了现有几种主要的基于统计的计算语言模型,分析了各种基于统计的计算语言模型的......
随着社会生活网络化的日趋成熟,在很多研究和商业领域里都遇到了中文文本处理问题。不断深化的文本分类研究需要从文本的各个方面......
在目前的电视台采访和录音中,有大量的文本任务需要使用语音识别软件进行从语音向文字的转换。如今语音识别的准确率虽然已经足够......
提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检......
语言是人与人之间沟通的桥梁,语言识别技术作为一种非常重要的技术,对于促进世界文化交流有着十分重要的意义。目前,N-gram模型是......
基于统计的自然语言处理模型采用统计方法进行自然语言建模.实际应用过程中可根据具体情况在多种模型中选择适当的模型.本文简要介......
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提......
在大规模的文件存储系统中,针对大多数算法的设计没有考虑到元数据访问的特征与元数据本身较小的特点,提出了一种利用存储系统中的元......
哈萨克语是组成结构复杂的黏着性语言,哈萨克语词干提取词缀提取对哈萨克语信息处理领域具有很重要的意义。从哈萨克语粘着性特点......
对已有的N-gram平滑算法进行了系统地分析,分别实现了Absolute、W-B和Katz平滑算法.为解决传统Katz平滑算法在处理某些汉语固定搭......
针对基于统计模型的中文分词系统,从系统实现的角度探讨了主流的相关技术,涉及:n—gram语言模型,语科库,统计模型的参数估计及参数平滑......
音字转换是汉语言信息处理的一个重要方面,在语音识别、汉语拼音输入等方面都有广泛的应用。本文首先回顾了词树的理论知识,然后对词......
摘要:本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀......
文章针对传统哼唱检索方案性能较低的问题,提出一种基于大页内存的哼唱检索系统改进方法,并选取n-gram模型搭建哼唱检索系统,分析......
针对在线社交网络中跨站脚本(XSS)攻击的安全问题,提出了一种在线社交网络恶意网页的检测方法。该方法依据在线社交网络中跨站脚本......
为了解决仅采用基于语音或基于字形的音译方法造成的误差过大问题,以汉英音译为主要研究对象,运用统计与规则的理论思想,提出融合......
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分......
在生物信息学领域内生物医学命名实体识别(Bio-NER)是生物医学文献挖掘、利用的基础工作,由于实体边界识别的困难导致目前Bio-NER......
问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的......
该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不......
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测......