论文部分内容阅读
通用无损数据编码是数据压缩领域的一个重要的分支,现有的无损数据编码方法大多是基于n-gram模型的,n-gram模型忽略了自然语言中的远距离约束和诸如词序冗余、语义冗余、句法冗余等冗余,为了找出并减少这些冗余,需要更有效的语言模型和更智能的算法。近几年的自然语言处理研究表明,最大熵原理是建立自然语言统计模型的一个很有效的方法。而在许多领域应用广泛的人工神经网络具有自适应和自学习的特点,成为数据编码方法的一个理想选择。 传统的人工神经网络数据编码算法需要离线训练且编码速度慢,因此通常多用于专用有损编码领域如声音、图像编码等,在无损数据编码领域应用较少,针对这种现状,本文详细地研究了最大熵统计语言模型和神经网络算法各自的特点,在此基础上提出了一种基于神经网络和最大熵原理的算术编码方法,这是一种自适应的可在线学习的算法,并具有精简的网络结构。实验表明,这种算法在压缩率上优于传统的算法,在编码和解码速度上接近于传统的数据编码方法。