基于最大熵模型特征选择算法的中文分词增量学习研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:baalzio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化社会的发展,网络的不断普及,中文信息处理技术的应用越来越广泛。中文分词技术作为中文信息处理技术的基础,已经成为制约中文信息处理技术发展的一项关键和核心技术。目前,中文分词方法主要有两大类,一类是基于规则的方法,另一类是基于统计的方法,此外还有一些综合方法和其它方法。虽然这些方法大大推动了中文分词研究的发展,但在实际应用中,仍然面临着以下三个常见问题:分词规范问题、歧义问题、未登录词问题。   目前,已经应用于中文分词技术的机器学习算法有简单贝叶斯、最大熵、神经网络、支持向量机、遗传算法等,这些算法在中文分词的应用中都有非常好的效果。但是,这些算法仍然难以应对与日俱增的数据规模。当出现新增的训练数据样本时,算法为了适应新的数据样本,必须将所有的数据重新学习一遍,以建立新的计算模型。这样,算法浪费了大量的时间和空间。因此,本文将最大熵模型特征选择算法引入到中文分词技术的研究中,以应对训练语料库规模的日益增大,适应增量学习的要求。   本文所作的主要工作如下:   (1)研究增量学习的基本理论和基本算法。   (2)研究信息论中条件最大熵的理论,改进最大熵模型的特征选择算法以适应增量学习的要求。   (3)研究交集型歧义和组合型歧义的特征模板的构建,并且利用构建的特征模板进行特征选择,选出有代表性的、不冗余的有效特征。   (4)利用模型进行交集型和组合型歧义字段消歧处理。   (5)基于最大熵模型特征选择算法构建一个中文分词系统,使用不断增大的语料库进行训练,避免重训练,提高分词系统的适应性。
其他文献
随着社会现代化水平的提高,快速准确的身份识别技术逐渐成为研究热点之一。颅骨是一种新兴的生物特征,一经提出就备受关注,其突出优点是不受表情干扰和光线约束。作为颅骨应用领
在用户界面研究中,人机交互技术是当前发展最迅速的技术之一,研究人员予以特别重视。它是一门综合学科,与认知学、人机工程学、心理学等学科领域有着密切的联系。作为人机交
随着信息技术的快速发展,计算机应用日益广泛,软件已渗透到国民经济和国防建设的各个领域。但是软件的生产现状和质量常常存在缺陷。因此,如何提高软件的质量,尤其在一些安全关键
近年来,随着Internet的快速发展,Web为用户提供了大量的网页信息资源,并逐步成为了人们获取信息的主要途径之一。但Web数量及内容的快速增加,使得用户越来越难对网络中信息的
随着虚拟现实技术的快速发展和体感交互设备的不断推广,人们越来越倾向于使用自然、方便的方式实现人机交互,尤其是手势交互。因此,虚拟现实系统中手势识别的研究与发展具有
随着计算机技术的不断发展,为满足用户的不同需求,越来越多的软件在各行各业得到了广泛应用,尤其是仿真软件的发展应用;近年来,一些特定领域针对特定需求而开发的仿真软件在实际生
目前,大规模的人类群体活动不断的增多,规模也越来越大,如奥运会、足球世界杯、世博会等世界型的集会,举世瞩目,汇集世界各地大量的人群,大都市的商场、明星的演唱会等也会同一时刻
随着网络的快速发展,网络结构的不断扩大和复杂化,信息的安全问题也日益严峻。如何保障信息安全已经引起政治、经济及社会各界的广泛关注。由于目前防火墙和IDS体系的研究已经
在医学CT中,过大的扫描剂量对被扫描病人是有害的。低剂量扫描的一种有效方法是仅仅扫描稀疏视角下的投影。然而,基于稀疏数据的解析法重建会产生严重的条状伪影,影响诊断。2
软件危机的爆发表明落后的软件生产方式已经无法满足社会和企业对计算机软件新的需求,而构件化软件开发技术被视为解决软件危机的有效方法,如同搭“积木”式组装和开发目标软件