新闻垂直搜索引擎中文分词与网页去重的应用与研究

来源 :长安大学 | 被引量 : 1次 | 上传用户：liongliong584

【摘要】

：

自互联网诞生以来，网络信息每年几乎都成指数量增长。搜索引擎是人们获得互联网信息的重要工具，但是传统的搜索引擎利用网络爬虫从互联网上大规模的搜集到的信息其中很多信息是

【作者】

：

李小三

【机构】

：

长安大学

【出处】

：

长安大学

【发表日期】

：

2014年01期

【关键词】

：

垂直搜索引擎网络爬虫网页抽取中文分词网页去重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自互联网诞生以来，网络信息每年几乎都成指数量增长。搜索引擎是人们获得互联网信息的重要工具，但是传统的搜索引擎利用网络爬虫从互联网上大规模的搜集到的信息其中很多信息是完全重复或近似重复的，还有很多信息是用户不需要的，这样就加重了用户使用搜索引擎的负担。而垂直搜索引擎能够精确的获得用户关心的相关领域信息。垂直搜索引擎不像通用搜索引擎那样，它仅仅搜集某一特定领域相关的网页内容。本文首先描述了垂直搜索引擎的工作原理，并讨论了垂直搜索引擎的几个关键技术，主要技术包括：网络爬虫技术、中文分词技术、网页预处理技术、网页去重技术、索引和检索技术等。对包含这几项关键技术的功能模块进行了详细描述并进行具体实现。本文设计了一个多线程网络爬虫，使其高效的爬取互联网资源，并使用布隆过滤器，用来排除重复的url；网页主题内容提取部分实现了基于网页内容结构和正则表达式技术的算法，和其他网页主题内容提取技术相比，性能有所提高；网页索引部分，采用Lucene技术，高效的建立了倒排索引库；研究并分析了中文分词技术，实现了基于双向最大匹配法和基于数学统计分析的两种歧义消除规则的算法，试验结果表明，该算法在歧义消除和正确分词上都有了提高；此外对网页去重技术进行了深入研究，提出了基于web文档长度和web主题内容的重复网页检测算法，试验结果表明，该算法相比传统的基于主题内容的网页去重算法和MinHash算法在运行效率去重质量上有了提高。基于以上技术，本文实现了一个新闻垂直搜索引擎。

其他文献

基于地理图信息的多普勒天气雷达风场反演方法研究及产品开发

随着大气探测手段的不断更新和雷达技术的进一步发展，多普勒天气雷达不仅能够测定降水的位置和强度，还能够测量降水区域内部的气流速度，在气象业务中的雷达风场产品应用也越来越

学位

风场反演资料预处理速度模糊地理信息多普勒雷达大气探测天气雷达天气预报

分组调度技术在未来移动通信中的研究

在移动通信系统中，分组数据业务的应用越来越广泛，特别是3G、4G以及以后的系统中分组业务应用都将为主导地位。这就使得对移动网络的QoS满足要求越来越高。移动分组网络相对于

学位

MPLS分组数据业务分组调度资源分配网络时延网络服务质量

电力设备图片管理系统的研究与实现

从分析电力设备信息管理的现状和发展需求入手,根据图片形象化和便于采集的特点,设计了电力设备图片管理系统。系统采用B/S结构便于升级维护,在MVC架构的基础上使业务逻辑和

学位

电力设备图片管理变电站一次设备地图Blob技术数据库连接池

基于被动取证的视频篡改检测算法研究与实现

随着多媒体时代的到来，数字视频通过互联网和智能手机融入到人们的日常生活，并逐渐成为司法证据的重要组成部分。然而，多媒体处理技术的发展和强大的多媒体处理软件的出现使得人

学位

篡改检测双重压缩首位数字概率分布马尔科夫过程光流

超高速移动OFDM系统频偏估计与信道估计

正交频分复用(OFDM)技术因其抗衰落能力强、频谱利用率高等优点,在移动通信中有着广泛的应用。然而在空空通信等超高速移动环境下,OFDM系统对超高速移动引起的时变多普勒频偏

学位

超高速移动通信正交频分复用系统频偏估计信道估计循环前缀

矿用本安型计算机的研究与实现

本文对矿用本安型计算机的实现进行了研究。文章首先从功耗、采用的技术措施等方面入手，分析了现有隔爆型计算机难以达到本质安全电路的原因。其次以满足本质安全的要求为目的

学位

矿用计算机本质安全型计算机设计

基于Linux的VOD视频服务器的设计和优化

随着计算机网络通信技术、数字压缩技术和存储技术的高速发展,视频点播(VOD)业务凭借其良好的交互性得到日益广泛的应用;同时,Internet蓬勃发展,上网的人数日益增加,上网收听

学位

视频点播视频服务器流媒体ext3文件系统流调度高性能网络I/O数据库访问层

基于H.323的VoIP系统的QoS实现研究

由于Internet网络的发展，基于Internet网上交换的IP电话也得到了迅速的发展。VoIP技术具有不独占电路，占用带宽低，话费低廉等特点，因此，VoIP技术成为了今后IP网络应用发展的趋势之

学位

服务质量VoIP系统时延抖动抖动缓冲控制算法IP电话

基于开放API的多媒体消息业务实现研究

开放 API是下一代网络业务提供体系中的关键技术，它继承了传统智能网提供业务的各种优点，摒弃了其设计不合理的方面，完全实现了智能网设计的核心思想：业务与交换控制相分离，各功能

学位

Parlay API业务模型多媒体消息电信网络

新闻垂直搜索引擎中文分词与网页去重的应用与研究

其他学术论文