论文部分内容阅读
随着Intemet规模的不断增长,互联网上信息资源也快速膨胀起来.网络资源的扩大和其具有的异构性、开放型和分布性有着直接的关系,但是用户想在网络上准确、快速的得到信息变得更加困难,而中文搜索引擎的出现转变了这种状况.本文分析了中文信息处理的难点和特殊性,对如何扫描分析HIML文档、中文自动分词技术以及转换汉字码制的基本方式进行介绍.