基于搜索数据的宏观指标预测方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:rilson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的飞速发展迎来了数据爆炸的时代,搜索服务提供商也因此积累了多样的海量用户搜索行为数据,这些数据是时下社会热点的间接反馈,与宏观指标的定义不谋而合。因此,研究一种基于搜索数据的宏观指标分析方法成为可能,而且具有重要的科研和实际价值。Google公司的GFT (Google Flu Trends)模型利用Google搜索数据对世界范围内的流感预测做出的重要贡献,印证了搜索行为数据巨大的潜在价值。百度作为国内最大的搜索服务提供商,记录着丰富的用户搜索行为数据,利用这些数据,本文提出BS-MIP (Macro Index Predication based on Baidu Searches)模型,对宏观指标进行全程自动化地预测分析,同时规避了(类)GFT模型对专业领域知识的强依赖约束。在早期的预测模型中,为避免因漏掉重要特征导致模型失准,通常会选择把可能相关的特征全部引入到模型,但由此引入的特征冗余风险,可能导致模型失效。本文提出以GA-Lasso (Genetic & Adaptive Lasso)方法为核心的特征选择模块,将传统的特征选择方法与人工智能的思想相结合,提供了解决高维小样本问题和过拟合问题的实用方案。连续数值的离散化处理是数据预处理中的重要环节,不仅能够简化后续学习过程,提升学习效率。然而,无监督情境中的离散化问题,因缺少类标签信息的辅助,成为离散化处理中亟待解决的难题。本文结合聚类思想和集成学习的思想,提出了以KED (Kmeans based Ensembling Discretization)方法为核心的无监督的数据离散化处理模块,能高效地完成离散化任务。BS-MIP模型能够集成搜索数据预测宏观指标,对相关领域的类似工作具有重要参考价值,而GA-Lasso方法和KED方法则分别为其提供了可用性和可扩展性的保障,并且两个算法可以作为模块单独使用,具有较强的灵活性。
其他文献
毛泽东对逻辑学提出了许多有益的科学的见解,包括:明确了逻辑学的研究对象和性质、肯定了逻辑学的学科地位、提出了“学点逻辑”的号召。毛泽东的这些观点,对于现阶段逻辑学在我
中药遗传毒性研究是中药安全性研究的重要组成部分。我国中药的遗传毒性研究起步较晚,在20世纪70年代以后逐步得到重视。目前发展较为成熟的遗传毒性评价方法主要有以遗传基
探究性教育活动可以促进教师的专业成长,促进幼儿的自主发展,促进幼儿园教研水平的提高。幼儿园可以通过构建合作式园本课程,为实施探究性教育活动提供载体;通过基于行动研究
中药虎杖含有多种活性成分和多样的药理作用,具有重要的研究及开发利用价值。白藜芦醇及白藜芦醇苷(虎杖苷)为虎杖中代表性有效成分,突出表现了对心血管系统的药理作用,近年
对严寒和寒冷地区住宅小区暖通空调系统设计,从室内采暖末端设备的选择、室外热源供暖规模、室外热网的敷设和调节、通风防排烟设置及空调系统在施工图审查和设计中出现的若
2008年7月1日,环境保护部实施的新标准有12项,其中关于机动车尾气排放和发动机的标准就有6项,占50%。我国机动车从7月1日起将实施更严格的环境标准以迎接奥运,这也为"后奥运"时代环保工作提供技术基础。在农村,摩托车是大气污染的主要污染源之一,而
以彬长公司在建矿井胡家河煤矿井底水仓为工程依托,分析了煤矿巷道顶底板岩性、地质构造,得出巷道底臌的破坏类型。采用反底拱支护方式处理底臌,经对巷道的表面位移进行监测,评估
针对金华山煤矿2108工作面的瓦斯来源,分析瓦斯可能产生的区域,提出增加工作面风量,减少采空区漏风,上隅角埋、插管抽采等多种技术手段对2108工作面的瓦斯全方位综合治理。