基于用户访问行为分析的网站分类研究

被引量 : 0次 | 上传用户:liu0686
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和WWW的迅猛发展,网站的数量也越来越多,而且网站包含了海量的、异构的、动态的信息资源,利用数据挖掘中的分类技术对这些网站进行组织归纳,从而有效地管理资源、改善网站服务满足用户需求,已日益成为一个重要的研究课题。目前的网站分类研究是以文本分类为基础的,需要分析网页内容,且以单个网页为处理对象,计算量大,不适合处理大规模流数据。另一方面,网站正从“以站点为中心”朝着“以用户为中心”的方向发展,而这种基于文本的分类方法从网页的静态内容出发,分类结果不能体现用户的行为特点。针对传统的基于内容的网站分类方法存在的问题,本文提出了一种基于用户访问行为分析的网站分类方法,该方法把具有相同URL前缀的网页的集合(即URL主机名相同的网站)作为一个处理对象,降低了数据规模;其次采集河南省教育科研计算机网真实的HTTP协议业务流数据作为分析对象,从用户对网站的访问行为中提取用于网站分类的特征,不需要逐个分析网页内容;最后针对省级区域性网络数据规模大的特点,采用可伸缩性决策树归纳算法,从河南省教育科研计算机网用户访问的网站中提取出新闻类网站、资源共享类网站和通讯类网站。与传统的网站分类方法相比,本文提出的方法更适合处理大规模数据,且得到的分类结果包含了用户的潜在行为模式,更能反映用户的兴趣趋向和行为规律,从而使网管人员有针对性的优化网络,满足用户对主流应用的需求。
其他文献
河北杨(Populus hopeiensis Hu et Chow)属杨柳科(Salicacae)杨属(Populus L)白杨派(Section Leuce Duby)树种,是一个主要分布在我国西北与华北干旱半干旱地区的重要乡土杨树
21世纪以来,随着经济的全球化、知识经济时代和信息时代的到来,市场更加成熟、竞争更加激烈。如何提高企业核心竞争力,全面提高公司业绩,已经成为越来越多的国内外企业研究的
当前我国养老保险制度建设取得了前所未有的进步,但仍存在“碎片化”的缺陷,各地养老保险制度的实行标准参差不一,与党的十九大要求的“全面建成覆盖全民、城乡统筹、权责清
本文分析了国有企业所得税纳税筹划的重要性,并对目前所得税筹划存在的问题进行阐述,最后提出了相应的解决措施,所得税纳税筹划对于国有企业起着至关重要的作用,不但能够提高
金融业是个充满风险的行业。随着去年光大金融控股集团获批成立,标志着我国金融业从分业经营加快向混业经营发展。同时,金融混业经营也使金融控股公司面临更大的市场风险。因
长江自古以来就是我国东中西部地区的交通大动脉,是我国最重要的水运主通道,也是连接东中西部经济发展的“黄金纽带”。沿长江经济带是我国最重要的高密度经济走廊,在我国社
在工作过程中,二次雷达系统会出现诸如混扰、窜扰以及"环扰效应"和"多径效应"等现象,引发伪目标,使其性能难以达到理论目标。所以,有必要对二次雷达的这一现象进行分析,探究
以多媒体技术和计算机网络为代表的信息技术的飞速发展,正在改变我们生活的环境和学习的方式。近几年来,信息时代发展的新技术——博客在众多行业和领域中得到了广泛的应用,
飞行安全是民航永恒的主题,是民航发展的基础。为了避免飞机空中相撞提高航空安全,我国航空公司各航线客机上都装载了空中交通警戒与防撞系统——TCAS,其维修任务十分繁重。