基于Helmholtz原理的中文新词识别

来源 :内蒙古大学 | 被引量 : 1次 | 上传用户:supphia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在新词识别领域,研究者的研究阶段处于有效的新词特征挖掘和新词检测模型选择。现有的新词特征主要包括语言知识特征和统计特征。常用的语言知识特征有前后缀、串长,统计特征有词频、互信息、左熵、右熵、色子矩阵(Dice)。新词,为何新?“新”可以跟时间对比,在某个时间点之前新词从未出现过,这个时间点后新词出现了,并被人们广泛使用,但新词出现的这个时间点很模糊,无法具体界定。针对新词时间分布特性难以描述的问题,本文提出一种量化新词时间分布特性的方法,并用于新词检测。本文采用候选新词词频与Helmholtz原理相结合来量化新词的时间分布特性。词频体现人们某段时间对某个词的使用频度,本文将词的时间分布特性量化为语料中文档词的词频分布。Helmholtz原理观察事件是否远偏离事件发生的随机分布,如果事件观察结果明显偏离随机分布,则该事件是有意义的。文档词的词频分布是Helmholtz原理的观察对象,新词在连续时间段内从无到出现,然后被广为传播使用表现为新词的词频剧增,相比于词典词的词频分布,候选新词的词频分布可能会被Helmholtz原理观察为偏离随机分布的事件。本文解决了时间分布特性量化的难题,并用于新词检测。在实验阶段,采用支持向量机(SVM)作为新词检测模型,融合互信息、左熵、右熵、Dice的组合特征做实验的Baseline,新词识别准确率为85.6093%。在Baseline的基础上,新词特征增加串长、词频,新词识别的准确率为87.5328%。在此基础上,新词特征增加以词频与Helmholtz原理相结合的时间分布特性,新词识别的准确率为91.5822%。
其他文献
行业应用是面向政府机构、企事业单位等行业客户提供涉及日常生产经营及管理活动等的移动信息化应用。行业网关是行业应用的主要承载平台,它通过与其他相关网元的密切协作,实
随着社会经济和交通技术的迅猛的发展,在经济发展的带动下,城市交通面临着巨大的压力,人们极大关注这个问题。如果不处理好这个问题,将会影响人们的出行以及城市的交通。因此
互联网和视频的结合产生了网络视频,网络视频以其娱乐性和交互性等优点吸引了更多的人在线收看视频。C/S架构存在单点系统瓶颈,主要体现在服务器的计算能力,存储以及带宽。IP
该系统主要是为了在保留现有远程教育中视频点播技术的条件下,给现有远程教育系统增加视频直播技术和云存储技术,同时支持桌面和移动端实现,使教学过程更加便利。本系统在远
随着计算机技术与非线性滤波理论的不断发展,人眼检测与眼动跟踪已经成为计算机视觉与自动化领域的前沿热点之一。本文研究并分析了现阶段人眼检测与眼动跟踪方法,并在此基础
目前,行人群体行为分析与识别的研究主要集中于多目标检测与跟踪、路径分析(Trajectories Analysis,简称TA)、行人区域密集性分析(Dense Regions Analysis of Pedestrians,简
近些年来,随着嵌入式技术的快速发展,嵌入式软件开发的复杂度越来越高,因此调试在嵌入式软件开发中的作用也越来越大,一款优秀的调试工具可以极大的提高嵌入式软件的开发效率
RFID由于非接触式自动识别、多个标签同时读取、抗干扰性强等多个特点,已经被广泛应用于商品物流管理、物品信息追溯等领域,在物联网的感知层担任着重要角色。由于所需要标识
随着无线通信技术的飞速发展,无线定位技术已经在各个领域扮演了重要角色。近几年,移动互联网催生出了一大批基于位置的服务,使无线定位成为了一个研究热点。为了提高无线定
随着互联网的迅速发展,互联网中的数据呈爆炸式的增长,因此高效的信息检索技术对于帮助用户获取有用的信息具有重要的意义。目前搜索引擎技术已经取得了很大的进步,能够基本