论文部分内容阅读
提出了一种互联网上语种识别和多语种分布统计的方法。方法针对各语种文字被使用频率不同的特点给出高频字定义,以高频字作为关键字进行网页查询和网页语种识别,然后引用概率论中加法公式的推广公式统计互联网上各语种网页分布情况,并结合高频字被使用频率对各语种文字分布情况做出进一步统计。实验方法和数据结果对计算机工作者全面了解互联网特征提供参考。