【摘 要】
:
随着互联网技术的迅猛发展,网络信息资源呈几何级数增长,如何从海量数据中快速准确的提取有价值的信息显得更加重要。搜索引擎的出现有效的解决了用户检索信息的困难。而中文
论文部分内容阅读
随着互联网技术的迅猛发展,网络信息资源呈几何级数增长,如何从海量数据中快速准确的提取有价值的信息显得更加重要。搜索引擎的出现有效的解决了用户检索信息的困难。而中文分词技术又决定了搜索引擎查找信息的准确度。以词为单位做为搜索引擎索引的key值,会大大提高搜索引擎搜索结果的准确性,同时减少了搜索过程中的计算量。目前存在的分词算法主要分为基于字符串匹配法、基于统计的分词法以及基于理解的分词法三大类。通过对现有分词算法的研究与理解以及字典机制的学习,了解不同算法及词典的优缺点,结合汉语词条长度出现频率,提出了基于首字hash的匹配算法及基于首字最长词条匹配算法及其改进算法。经过实践验证,算法很大程度上减少了时间复杂度,提高了分词速度,具有较好的实用价值。文章最后在对Nutch自带分词技术的理解基础上,加入中文分词插件,通过验证进一步说明了中文分词对搜索引擎的重要性。
其他文献
计算机和网络技术的迅猛发展,引发了工业控制领域深刻的技术变革.CAN总线支持分布式控制和实时控制,但不适合远距离传输.工业以太网的确定性、实时性和本质安全性已经得到很
自然语言处理已经成为世界各国和各民族信息技术发展过程中至关重要的研究课题之一,伴随着如今大数据时代的到来,更加体现了它的学科优势性,成为了每一个民族信息处理的核心问题
在当今的信息化社会中,人们的日常活动同计算机的联系日益密切。与此同时,包括计算机病毒在内的恶意程序与恶意代码也时时困扰着计算机用户。此外,用户有意或者无意的操作也
随着计算机技术及微电子学的蓬勃发展,嵌入式系统与无线传感器的应用越来越广阔。本文在学习了大量定位系统以及传感器研究成果的基础上,深入分析和比较了几种典型的定位技术
随着社会信息化的推进和通讯技术以及网络技术的飞速发展,信息的流量越来越庞大,存储的数据量正在以指数速度迅速增长,图是一种广泛使用的数据结构,它能很好地表示数据对象之
海洋环境的监测对人类的生存环境与海洋经济的发展有着至关重要的作用。近年来随着海洋学的发展和研究日益深入,海洋环境的监测和调查研究工作越发受到人类的重视。本文研究
数据起源是新兴的研究领域,可用来判断数据的来源、质量和可靠性,方便数据的重用。迄今为止,对起源的研究主要集中在建模、计算、存储、查询等工作上,对确保数据起源信息安全