论文部分内容阅读
分词作为自然语言处理(NLP)的第一步,有着不可或缺的作用。中文分词(CWS)由于语言的复杂性成为学者研究热点。根据历年文献资料,分词方法主要包括词典分词、统计分词以及神经网络分词。随着机器学习的发展,神经网络成为分词领域主流算法,基于神经网络的长短时记忆网络和基于统计的条件随机场分词在提高准确度方面作用巨大,准确度达97%。在此之后,分词歧义和未登录词识别得到很大改进,但研究发现改进模型结构带来的准确度波动不大,且增加了模型复杂性,降低了运算速度。卷积神经网络能更好地理解语义信息,利用稀疏连接缩短运算时