大规模WWW文档分类与特征词抽取方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:asd17844412dsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,随着Internet技术的推广和应用,国际互联网已经成为世界上最大的信息资源库和全球范围内传播信息的最主要的渠道.如何帮助用户快速、准确地查找和分类网上有用信息,具有广泛的应用背景和实用价值,成为近年来的研究热点.该文从面向大规模WWW文档分类、面向应用的角度出发,详细分析了在实际应用中存在的几个关键技术,并结合实际应用进行了改进,给出了实验算法和结果.此外,我们还对几种常用的文档分类算法和特征项表示方法进行了介绍和分析,有助于理解和分析该文的内容.
其他文献
该文从笔划构图的思想出发,并着眼于陶瓷花纸、印染等工业对图案带约束变形和智能变形的要求提出了一种在于笔划模板的非真实感绘制技术.该文首先介绍几种已有的非真实感绘制
作者提出并实现了一种基于优先级的抢占式调度机制.首先,该机制采用了一种基于优先级排序的进程调度器PO-Scheduler,该调度器在保持了Linux现有调度器一切优良特性的基础之上
当今世界处于信息爆炸式的增长并且迅速更新的时代,这一客观现实对教育改革提出了全新的要求。传统的黑板加粉笔的教学手段无法适应当前大信息量的教学内容需要,为适应21世纪对
随着Internet的用户数和信息量爆炸性的发展,传统的web信息检索模式呈现出效率低下、制约发展的征兆,因此也激励人们研究和开发新的、更加高效的信息检索方法。近几年,移动agent
该文主要围绕四个方面展开:长事务的分解方法、利用事务语义的长事务处理、利用对象语义的长事务处理以及同时利用事务和对象语义的长事务处理方法.具体工作如下:1.该文通过对
系统级故障诊断通过系统内各处理机相互测试,然后对所有结果进行逻辑分析从而找出系统中的故障处理机。随着网络和多机系统的不断发展,作为提高系统可靠性重要手段的系统级故障
随着科技的进步和经济的高速发展视频监控已经成为各种公共场所常见的安全监管手段。但由于监控视频场景众多,监控人员的疏忽等原因,导致大部分的监控视频都用在事故发生之后
信息技术的突飞猛进,不断冲击到人们的生活与思维方式,也影响到与其息息相关的企业活动。现有企业资源的使用方式,已经不再是最有效的利用方式。Java语言的出现适应了信息技术的
本文以计算机基本知识与操作技能为研究对象,对国内教学与考核的现状进行较全面的调研,并对与这类考试系统相关的技术进行较全面的分析,在此基础上,应用计算机网络技术、ASP技术
CTI(Computer Telephony Integration,计算机与电信集成)技术,将电信技术与计算机技术有机结合的具有强大业务处理能力的智能平台,通过有效的交换接入,可涵盖众多特服业务,并