基于条件随机场的中文分词技术的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:huanying19870604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中日益庞大的海量信息给信息处理带来了极大的挑战,尤其是在中文信息处理领域,其中最为重要的一个就是对中文分词技术的要求。中文分词的主要目的就是将中文语句解析为具有正确含义的词语的组合,从而使得计算机可以理解句子的意义,信息索引、自动摘要、文本分类、自动聚类、文本纠错、手写输入、智能应答等各个领域中对信息处理的第一步都是中文分词,所以加强对中文分词技术的研究具有极为重要的意义。本文运用条件随机场统计模型将中文分词中的词语切分问题成功转换为汉字的组合构词问题,主要是引入了汉字词位的概念,通过对汉字词位的标注使其能够依照词位组合的规则进行词语合并,整个过程通过机器学习训练的方法加以实现,不仅提高了分词的准确度,还能使分词工作摆脱对词典的依赖。本文运用JAVA语言实现了基于条件随机场的分词系统,首先对真实语料库特征信息进行统计,建立了可扩展可维护的特征信息库,然后运用viterbi算法对词位序列求最优解,在实现viterbi算法的过程中引入了规则限制以去掉无效的组合,从而降低了viterbi算法的计算量。在实验阶段,运用真实语料库进行训练和测试,并编写了高效的性能评测算法对系统的分词结果进行分析。本文的研究方法可以通过汉字的词位组合规律来识别未登录词,从而可以在未登录词的识别问题上做更进一步的研究。
其他文献
OFDM (Orthogonal Frequency Division Multiplexing)技术以其多载波、抗多径干扰特性被选为LTE (Long Term Evolution)系统的关键技术。同时,OFDM技术能更好与链路自适应技
运动目标跟踪和网络监控是远程智能视频监控系统的关键技术和主要研究方向,其主要功能为主动监测监控场景中的运动物体,分析其运动轨迹,并将监控场景通过网络发送到监控端。
移动用户对通信数据率的需求与可用频率带宽受限的矛盾,随着用户数持续增长与多媒体业务迅速发展,日渐突出。为提高无线通信的可靠性与有效性,研究人员从时域、频域等维度对
随着嵌入式多媒体应用领域的发展,人们对多媒体播放器的功能要求越来越高,尤其是对不同多媒体格式的支持;大屏幕电视的普及,使影片的观看达到更好的视觉效果。而为满足大众个
近些年微带天线以其体积小,剖面低,易集成,造价低等特性以及良好的性能受到广泛的关注。随着移动通信系统业务的不断增加,通信设备不断向小型化发展,对天线体积、集成化及工
双耳声源定位即通过放置在耳道入口或耳道内的传声器采集到的声信号估计声源方位。该项研究兴起于二十世纪八十年代,以心理声学和现代数字信号处理为基础,重点研究声信号中包含
当前伴随着互联网的飞速发展,移动端APP数量正在快速增长,针对海量APP,如何为用户推荐正确的APP成为目前面临的一个重大难题。相对于传统的推荐技术(协同过滤和基于内容的推
随着WiFi技术发展的逐渐成熟,人们使用WiFi实现网络连接服务的需求急剧增加,WiFi成为关注的焦点。WiFi技术因速度快等优势而得到普及,同时无线网络技术的发展出现接入瓶颈、
随着计算机技术的飞速发展,数字信号处理技术在通信、医学等领域得到了广泛的应用。盲源分离技术作为一种尖端的信号处理方法成为众多学者竞相研究的对象。盲源分离技术是指
自适应波束形成(ABF)技术可以适应当今相控阵雷达日益严峻的电磁辐射环境要求,为降低硬件成本及算法复杂度,大型相控阵天线通常采用部分自适应技术(PABF),为了减少信号处理器