新闻垂直搜索引擎中文分词与网页去重的应用与研究

来源 :长安大学 | 被引量 : 1次 | 上传用户:liongliong584
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自互联网诞生以来,网络信息每年几乎都成指数量增长。搜索引擎是人们获得互联网信息的重要工具,但是传统的搜索引擎利用网络爬虫从互联网上大规模的搜集到的信息其中很多信息是完全重复或近似重复的,还有很多信息是用户不需要的,这样就加重了用户使用搜索引擎的负担。而垂直搜索引擎能够精确的获得用户关心的相关领域信息。垂直搜索引擎不像通用搜索引擎那样,它仅仅搜集某一特定领域相关的网页内容。本文首先描述了垂直搜索引擎的工作原理,并讨论了垂直搜索引擎的几个关键技术,主要技术包括:网络爬虫技术、中文分词技术、网页预处理技术、网页去重技术、索引和检索技术等。对包含这几项关键技术的功能模块进行了详细描述并进行具体实现。本文设计了一个多线程网络爬虫,使其高效的爬取互联网资源,并使用布隆过滤器,用来排除重复的url;网页主题内容提取部分实现了基于网页内容结构和正则表达式技术的算法,和其他网页主题内容提取技术相比,性能有所提高;网页索引部分,采用Lucene技术,高效的建立了倒排索引库;研究并分析了中文分词技术,实现了基于双向最大匹配法和基于数学统计分析的两种歧义消除规则的算法,试验结果表明,该算法在歧义消除和正确分词上都有了提高;此外对网页去重技术进行了深入研究,提出了基于web文档长度和web主题内容的重复网页检测算法,试验结果表明,该算法相比传统的基于主题内容的网页去重算法和MinHash算法在运行效率去重质量上有了提高。基于以上技术,本文实现了一个新闻垂直搜索引擎。
其他文献
随着大气探测手段的不断更新和雷达技术的进一步发展,多普勒天气雷达不仅能够测定降水的位置和强度,还能够测量降水区域内部的气流速度,在气象业务中的雷达风场产品应用也越来越
在移动通信系统中,分组数据业务的应用越来越广泛,特别是3G、4G以及以后的系统中分组业务应用都将为主导地位。这就使得对移动网络的QoS满足要求越来越高。移动分组网络相对于
1临床资料患者1,女,57岁,既往冠心病史十余年,因咳嗽2日就诊治疗,临床诊断为细菌性上呼吸道感染。第1组应用0.9%氯化钠注射液250ml+青霉素钠800万u[皮试(-)]静滴,第2组应用5%
从分析电力设备信息管理的现状和发展需求入手,根据图片形象化和便于采集的特点,设计了电力设备图片管理系统。系统采用B/S结构便于升级维护,在MVC架构的基础上使业务逻辑和
随着多媒体时代的到来,数字视频通过互联网和智能手机融入到人们的日常生活,并逐渐成为司法证据的重要组成部分。然而,多媒体处理技术的发展和强大的多媒体处理软件的出现使得人
正交频分复用(OFDM)技术因其抗衰落能力强、频谱利用率高等优点,在移动通信中有着广泛的应用。然而在空空通信等超高速移动环境下,OFDM系统对超高速移动引起的时变多普勒频偏
本文对矿用本安型计算机的实现进行了研究。文章首先从功耗、采用的技术措施等方面入手,分析了现有隔爆型计算机难以达到本质安全电路的原因。其次以满足本质安全的要求为目的
随着计算机网络通信技术、数字压缩技术和存储技术的高速发展,视频点播(VOD)业务凭借其良好的交互性得到日益广泛的应用;同时,Internet蓬勃发展,上网的人数日益增加,上网收听
由于Internet网络的发展,基于Internet网上交换的IP电话也得到了迅速的发展。VoIP技术具有不独占电路,占用带宽低,话费低廉等特点,因此,VoIP技术成为了今后IP网络应用发展的趋势之
开放 API是下一代网络业务提供体系中的关键技术,它继承了传统智能网提供业务的各种优点,摒弃了其设计不合理的方面,完全实现了智能网设计的核心思想:业务与交换控制相分离,各功能