基于搜索数据的宏观指标预测方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：rilson

【摘要】

：

移动互联网的飞速发展迎来了数据爆炸的时代,搜索服务提供商也因此积累了多样的海量用户搜索行为数据,这些数据是时下社会热点的间接反馈,与宏观指标的定义不谋而合。因此,研

【作者】

：

李光明

【出处】

：

大连理工大学

【发表日期】

：

2016年期

【关键词】

：

搜索数据宏观指标预测特征选择离散化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

移动互联网的飞速发展迎来了数据爆炸的时代,搜索服务提供商也因此积累了多样的海量用户搜索行为数据,这些数据是时下社会热点的间接反馈,与宏观指标的定义不谋而合。因此,研究一种基于搜索数据的宏观指标分析方法成为可能,而且具有重要的科研和实际价值。Google公司的GFT (Google Flu Trends)模型利用Google搜索数据对世界范围内的流感预测做出的重要贡献,印证了搜索行为数据巨大的潜在价值。百度作为国内最大的搜索服务提供商,记录着丰富的用户搜索行为数据,利用这些数据,本文提出BS-MIP (Macro Index Predication based on Baidu Searches)模型,对宏观指标进行全程自动化地预测分析,同时规避了(类)GFT模型对专业领域知识的强依赖约束。在早期的预测模型中,为避免因漏掉重要特征导致模型失准,通常会选择把可能相关的特征全部引入到模型,但由此引入的特征冗余风险,可能导致模型失效。本文提出以GA-Lasso (Genetic & Adaptive Lasso)方法为核心的特征选择模块,将传统的特征选择方法与人工智能的思想相结合,提供了解决高维小样本问题和过拟合问题的实用方案。连续数值的离散化处理是数据预处理中的重要环节,不仅能够简化后续学习过程,提升学习效率。然而,无监督情境中的离散化问题,因缺少类标签信息的辅助,成为离散化处理中亟待解决的难题。本文结合聚类思想和集成学习的思想,提出了以KED (Kmeans based Ensembling Discretization)方法为核心的无监督的数据离散化处理模块,能高效地完成离散化任务。BS-MIP模型能够集成搜索数据预测宏观指标,对相关领域的类似工作具有重要参考价值,而GA-Lasso方法和KED方法则分别为其提供了可用性和可扩展性的保障,并且两个算法可以作为模块单独使用,具有较强的灵活性。

其他文献

毛泽东对逻辑的思考及其对当今逻辑学发展的启示

毛泽东对逻辑学提出了许多有益的科学的见解，包括：明确了逻辑学的研究对象和性质、肯定了逻辑学的学科地位、提出了“学点逻辑”的号召。毛泽东的这些观点，对于现阶段逻辑学在我

期刊

毛泽东对逻辑的思考启示Mao Zedong thinking on logic inspiration

中药遗传毒性研究思路和方法

中药遗传毒性研究是中药安全性研究的重要组成部分。我国中药的遗传毒性研究起步较晚,在20世纪70年代以后逐步得到重视。目前发展较为成熟的遗传毒性评价方法主要有以遗传基

期刊

中药遗传毒性遗传毒性评价方法中药遗传毒性研究的问题和解决方法遗传毒性评价新技术

幼儿园探究性教学活动的价值与实施路径

探究性教育活动可以促进教师的专业成长,促进幼儿的自主发展,促进幼儿园教研水平的提高。幼儿园可以通过构建合作式园本课程,为实施探究性教育活动提供载体;通过基于行动研究

期刊

幼儿园教育教育活动探究性教育

中药虎杖的心血管药理作用

中药虎杖含有多种活性成分和多样的药理作用,具有重要的研究及开发利用价值。白藜芦醇及白藜芦醇苷(虎杖苷)为虎杖中代表性有效成分,突出表现了对心血管系统的药理作用,近年

期刊

虎杖心血管药理学

严寒和寒冷地区住宅小区暖通空调设计探析

对严寒和寒冷地区住宅小区暖通空调系统设计,从室内采暖末端设备的选择、室外热源供暖规模、室外热网的敷设和调节、通风防排烟设置及空调系统在施工图审查和设计中出现的若

期刊

严寒和寒冷地区住宅小区暖通空调设计severe co1d and cold zones residential buildings HVAC design

严格准入以新标准迎接奥运

2008年7月1日,环境保护部实施的新标准有12项,其中关于机动车尾气排放和发动机的标准就有6项,占50%。我国机动车从7月1日起将实施更严格的环境标准以迎接奥运,这也为"后奥运"时代环保工作提供技术基础。在农村,摩托车是大气污染的主要污染源之一,而

期刊

环境标准奥运准入环境保护尾气排放技术基础环保工作机动车

膨胀型软岩巷道底臌治理与监测分析

以彬长公司在建矿井胡家河煤矿井底水仓为工程依托，分析了煤矿巷道顶底板岩性、地质构造，得出巷道底臌的破坏类型。采用反底拱支护方式处理底臌，经对巷道的表面位移进行监测，评估

期刊

巷道底臌反底拱底角锚杆巷道监测

金华山煤矿2108工作面瓦斯综合治理技术

针对金华山煤矿2108工作面的瓦斯来源，分析瓦斯可能产生的区域，提出增加工作面风量，减少采空区漏风，上隅角埋、插管抽采等多种技术手段对2108工作面的瓦斯全方位综合治理。

期刊

工作面瓦斯来源瓦斯治理全方位working face gas resource gas control comprehensive

基于搜索数据的宏观指标预测方法研究

与本文相关的学术论文