互联网搜索词分类关键技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:kinglesssss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,互联网上的数字信息量也开始呈指数型增长,人们要从信息海洋中获取自己需要的特定信息变得越来越困难。能帮助人们从海量信息中找到真正所需的搜索引擎,作为网络用户的信息获取平台,已成为互联网上不可或缺的网络应用。网络用户对搜索引擎的依赖越来越严重,用户的搜索行为已经成为其上网行为中很重要的一部分,而搜索行为中最为重要的就是用户提供的搜索词,这些搜索词直接或间接的反映了用户潜在的兴趣和需求,能够很好的为用户个性化应用以及网络定向广告投放等网络服务提供基础。因此,本文提出了对搜索词进行分类分析。针对互联网搜索词分类的问题,本文详细分析了互联网搜索词产生的相关背景,总结概括了搜索词的定义,详细描述了搜索词的特点,并针对现存的一些技术方法分析了搜索词分类的难点,最终提出了一个二阶段的搜索词分类解决方案:基于伪相关反馈的搜索词预处理与基于文本分类技术的搜索词分类。将未知的搜索词分类问题通过伪相关反馈理念转化为可以利用已有文本分类技术解决的问题。在搜索词分类问题的解决过程中,本文针对文本分类技术中的一些技术进行了研究比较,提出了一种在初步特征选择后进一步精减特征的基于重构思想的特征精选方法,该方法结合列选择方法定义了一个对初选特征选取特征子集的目标函数,利用贪心和直推式实验设计的思想来求解目标函数,最终获得局部最优精简特征子集,并通过实验证实了此方法的可用性。本文还通过详细全面的实验,对比分析了多种特征选择方法与分类方法组合的分类结果,最终选择出了适用于本文分类问题的特征选择方法与分类方法。在最后,本文还提出了搜索词分类问题可以进一步改进与应用的方向。
其他文献
随着知识经济的兴起和网络时代的来临,各个领域的信息系统层出不穷。然而,信息系统之间往往由于结构异构、语法异构、系统异构、语义异构等原因不能有效地通信,产生了许多“
随着互联网的高速发展,数据信息呈现出爆炸性的增长趋势,很多企业每天产生的数据量已经达到TB级甚至PB级。面对如此巨大的数据集,数据挖掘的过程会受到算法实现复杂,运行平台
近年来,国家电网对于智能电网的建设逐渐加速。智能电网的核心是数据,国网对于电能表数据积累数量大,纬度高。近年来,大数据分析在各个领域都产生了重要影响。大数据分析技术的推广和应用,为提高电能表的资产管理技术和水平提供了新的思维方式和管理系统模式。本文从电能表采集数据和故障电能表资产数据出发,利用机器学习等数据分析方法,在电能表供应商建模、智能电能表故障和寿命预测、基于树形结构的电能表误差远程校准三个
学位
入侵检测技术是一种积极主动的安全防护技术,它可以弥补传统安全保护机制的许多不足。然而随着入侵手段的多样化,传统的入侵检测技术已无法满足当前网络安全的需要,将智能技
随着大数据时代的来临,数据信息量规模大且增长速度快,数据本身表现出多种特征。从海量的数据中提取有价值的知识和信息越来越困难,同时对多源信息系统的处理和数据分布式存
简单,快捷,有效地软件开发工作一直是企业信息管理系统研究人员和开发人员所重视的内容。然而,随着企业业务的横向扩展,企业的信息系统开发规模将会越来越大,系统开发的效率
随着互联网的发展,网络成为人们表达自己意见和情感的重要平台,网络舆情的收集及分析已成为相关部门获取民众思想和建议的一个有效手段。作为网络上比较活跃、参与人数比较多
随着互联网的普及,各行各业对信息系统依赖度的不断增强,各政企对安全建设的极度重视,构建保障安全的基线成为不可或缺的一部分。本文主要研究针对证券、电信、移动等行业安
虹膜识别技术是一种以人体虹膜生理特征为依据的生物特征识别技术,与声音、脸像、掌纹、指纹等特征识别相比,虹膜具有稳定性、唯一性、非侵犯性、识别率高等优点,因此虹膜识
无线传感器网络作为一种以数据为中心的分布自组织网络,传感数据的收集往往是其最主要的任务。而传感器网络的节点通常被部署在环境相对恶劣、条件受限制的环境中,如何保证数