基于URL分类库的网页分类系统设计与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：X80908888

【摘要】

：

互联网技术的迅猛发展，推动了网络信息的爆炸式增长。它容纳了海量的各种类型的数字化信息，包括文本、图形、图像、声音甚至视频。这些信息大都是半结构化或非结构化的数据，因此

【作者】

：

汤琛

【机构】

：

南京邮电大学

【出处】

：

南京邮电大学

【发表日期】

：

2010年期

【关键词】

：

网页自动分类导航网搜索引擎向量空间模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网技术的迅猛发展，推动了网络信息的爆炸式增长。它容纳了海量的各种类型的数字化信息，包括文本、图形、图像、声音甚至视频。这些信息大都是半结构化或非结构化的数据，因此，如何在浩瀚而又芜杂的网络信息海洋中迅速有效地获得所需的信息是信息处理的一大目标。基于人工智能技术的网页分类系统能依据网页的文本内容的语义将大量的网页自动分门别类，可以大大缩短在线文档的整理时间，从而更好地帮助人们把握所需信息。近年来，网页分类技术也逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合，有效地提高了信息服务的质量。　　对网页分类所涉及到的关键技术，包括分类有效信息抽取、中文分词、维数约简、文本表示模型、分类算法以及分类评价标准等进行了全面的介绍及深入的研究和探讨。通过分析向量空间分类模型对训练集依赖程度过大，结合系统应用环境的特殊性，给出了利用网页搜集器搭建URL分类库与向量空间分类模型结合的方法。削弱了训练集对分类器的约束力，提高了分类系统的覆盖率和准确度。并对结果进行了实验检验，实验结果表明本文的分类URL分类库对网页分类是有效的，与传统的基于向量空间分类模型相比，分类结果的F1值平均可高达85.02％。　　将网页搜集器和网页分类器应用到网络运营商对用户网络行为监测分析系统的一个子系统，即广告推送系统中，实现根据用户上网URL记录分析用户网络行为类别，且取得了不错的效果。

其他文献

基于模糊理论的主观信任机制的研究

随着网络的快速发展，网络交易由于其快速便捷等特点已经成为人们广泛采用的交易方式，但是参与交易的用户的匿名性特点加大了网络交易活动的风险性。信任模型的研究为交易安全性

学位

模糊理论主观信任模型跨域访问信任路径搜索模糊逻辑信任更新

支持移动网络的身份验证系统研究及实现

近年来，移动网络得到了广泛的应用，其中身份验证是保证移动网络安全的前提。目前移动网络身份验证方面的研究包括：移动主机接入时链路层的安全、主机移动性管理中网络层的安全等

学位

支持移动网络身份验证系统域间验证信任管理

面向流媒体广播服务高效设计与实现

随着计算机技术的发展,流媒体服务变成越来越普遍,其被广泛应用于计算机服务,流媒体服务对网络环境,设备性能等方面也有着较高的要求,保证流媒体服务的实时性,稳定性成为流媒

学位

实时性内存锁定内存压缩流媒体

P2P网络基于信任的认证技术研究

近年来，对等网络(Peer-to-peer Network，简称P2P)迅速发展，广泛应用于文件共享、分布式计算和即时通讯等方面，成为业界关注与研究的一个热点。P2P网络中的节点既是资源提供者(Ser

学位

P2P网络信任模型认证技术超级节点

电子政务系统风险评估技术研究

当前，电子政务系统在全球范围内取得了突发猛进的发展，它能够促进政府信息资源的开发利用和共享、有利于政府部门与社会各界的沟通、提高办事执法的透明度等等。但是，电子政务作

学位

模糊综合评价法风险评估模型电子政务系统

P2P环境下基于节点位置的语义覆盖网络的研究

在互联网时代P2P有着突飞猛进的发展。P2P技术在发展过程中遇到了网络资源消耗过大、管理过于困难、信息垃圾过多、安全系数过低等多方面的问题。为更好地解决这些问题,人们

学位

P2P环境语义覆盖网络节点异构性综合权值

基于QoE映射和网络仿真的分布式应用系统网络性能研究

随着当前生产方式、服务和消费模式的快速发展，被社会所认同的经济模式已经逐渐从生产经济、服务经济向体验经济过渡。过去，经营商和销售商向客户所提供的，以及引导客户做出选择

学位

用户体验体验质量服务质量映射模型指标体系网络仿真

基于DM6446的嵌入式P2P流媒体播放器的研究与设计

随着互联网宽带技术、流媒体技术、嵌入式技术的飞速发展和用户对网络媒体资源的需求量逐渐增大，基于IP流媒体技术的交互式网络电视得到广泛应用，嵌入式流媒体播放器作为IPTV重

学位

嵌入式P2P流媒体播放器

基于优先级的应用层平衡组播树算法研究

应用层组播(Application Layer Multicast，ALM)是在端系统实现组播的一种组播技术，其数据的转发点是主机通过传统的单播技术来实现各转发点之间的数据传输，该技术不仅避免了对基

学位

应用层组播优先级平衡树

移动对象数据库内存索引技术研究

随着移动计算、全球定位系统、GIS等相关技术的发展，数据库需要存储和管理大量现实世界中带有时空信息的物理对象数据，并且它们的空间位置或范围会随着时间的变化而变化，这就促

学位

移动对象数据库索引交通道路

基于URL分类库的网页分类系统设计与实现

其他学术论文