论文部分内容阅读
近年来,随着中文地位的提高,自然语言处理中的中文处理技术也变的越来越多重要。中文自动分词作为中文处理技术的核心基础更是得到众多的学者的重视和研究,其中主要是针对歧义识别和未登录词识别(即新词发现)两个问题。目前已有较多学者和专家提出了一些解决方案,但是至今为止依然存在需要解决的问题。 针对中文自动分词存在的相关问题,本文利用遗传算法的并行操作和全局收敛性的特性,结合模拟退火算法的局部收敛性,提出了遗传模拟退火算法,包括相关编码及生存策略、动态交叉和变异因子、多次升温及记忆函数控制策略等。该算法设计求解了新词发现问题,并针对新华舆情监测系统进行相关设计应用。该算法用模拟退火算法解决了遗传算法中存在的“早熟”问题和进化后期收敛速度问题;用遗传算法解决了模拟退火算法缺乏全局性搜索的能力,使其在当前的解空间中可展开多处局部搜索,从而较好地搜索了整个解空间。最终算法充分发挥了遗传算法的快速全局搜索性能和模拟退火算法的局部搜索能力,既提高了搜索精度,又改善了进化后期效率,有效地解决了新词发现问题。最后通过实验分析与新华舆情监测系统中的实际应用,对算法的性能及效率进行有效的验证。 本文主要创新点有: 1、有效地结合了遗传算法与模拟退火算法; 2、将遗传模拟退火算法应用到中文分词中的新词发现求解; 3、提高新华舆情监测系统中的新词发现的效率和准确率。