论文部分内容阅读
本文根据100万字的科技资料中出现3129个不同汉字的字频统计数据,将汉字按字频大小排序,得出字序n较小时,字频近似于Zipt分布,大n时趋于指数分布的规律。根据这种分布,得到汉字的一维熵和汉字最佳编码的平均码长。又根据汉语拼音统计数据,估计汉字多维熵以及汉语拼音熵,并据以分析汉语拼音输入方案。