【摘 要】
:
随着Internet技术的发展和广泛应用,人们获取信息的方式也从传统的书本渐渐转移到了网络,造成网络信息飞速增长,网页数量不断增加,人们查找自己真正需要的信息难度也相应增加
论文部分内容阅读
随着Internet技术的发展和广泛应用,人们获取信息的方式也从传统的书本渐渐转移到了网络,造成网络信息飞速增长,网页数量不断增加,人们查找自己真正需要的信息难度也相应增加了。这样就促生了人们对信息查找工具—搜索引擎的需求。通过使用搜索引擎能够使人们比通过传统方式更迅速地找到信息、产品和服务。经过这几年蒙古文信息化建设,蒙古文网页也随之渐渐增多,获取蒙古文信息的范围也渐渐扩大起来,其中要寻找需要的信息的困难也相对增加起来。目前搜索引擎对信息检索起到很大作用,但是蒙古文搜索引擎却一直没有发展起来,其中主要的原因是蒙古文没有统一的编码,并且蒙古文网页编码多样化、(各种编码之间无相互转换规则)无规则、互相间无联系性,所以通过这些编码编辑的网页文本也会是各异的,这也是蒙古文搜索引擎一直没有出现的技术难题之一。然而对于普通用户只关注网页中的内容,并不关心它是使用何种技术、何种编码所制作。因此,我们对于一个未知编码的网页要想正确取得其内容,需要对其做出判断,以确定其是什么编码的网页,然后才能正确识别其内容,所以对蒙古文网页进行抓取、编码识别并转换为统一中间编码成为我们的研究的方向。
其他文献
以基于本体的特定领域需求获取为主要研究内容,系统分析并总结了目前已有的基于本体需求获取方法,得出当前方法的不足是本体为静态一次性构造,缺乏灵活性。针对当前方法中存
数据流模型的出现给传统的数据挖掘技术带来的巨大的挑战。由于数据流连续不断的到来,已有的数据处理技术难以对这些潜在无限的、变化的数据进行有效的管理和挖掘,因此,必须
近年来,随着网络规模的飞速发展,传统的IP网络仅提供“尽力而为”(BestEffort)的服务,对IP包传递的可靠性和时延不提供任何保证,这对只要求准确率而对时延没有严格要求的数据业务
高通量实验产生了大量的蛋白质相互作用数据。相互作用已知的蛋白质相互作用网络能为模体对的预测提供参考信息。但是,从蛋白质相互作用网络寻找模体对仍是一个挑战性问题。高
企业信息系统管理对企业的信息化起着至关重要的作用。但是由于系统受管资源往往源于多个厂商,兼容性得不到保证;企业的业务在其发展过程中也会日趋复杂:同时企业在发展的过
近年来,随着终端智能化和云计算的迅猛发展,移动云计算迎来了它发展的一个契机。在移动云计算环境下,如何实现把用户在一个终端尚未完成的任务或该终端不能完成的任务,高效迅
中文命名实体识别是中文信息处理任务的前提和基础,其中机构名占有相当大的比重,而且是最难识别的一部分,其识别精度还远远达不到实际应用的需要。本文详细研究了中文机构名的识
随着互联网应用的不断深入,电子邮件、电子商务、电子投票等电子通信方式已经广泛深入社会生活的各个领域,为保护用户身份信息的安全与隐私,许多匿名电子系统都把匿名作为系
近几年来,随着移动通信网络的发展,数据传输速率的提高以及带宽的增加,人们对无线视频应用的需求日益增长。但是视频数据经过高压缩后,尽量多的去除了象素之间冗余,并且由于无线信