论文部分内容阅读
移动互联网的飞速发展迎来了数据爆炸的时代,搜索服务提供商也因此积累了多样的海量用户搜索行为数据,这些数据是时下社会热点的间接反馈,与宏观指标的定义不谋而合。因此,研究一种基于搜索数据的宏观指标分析方法成为可能,而且具有重要的科研和实际价值。Google公司的GFT (Google Flu Trends)模型利用Google搜索数据对世界范围内的流感预测做出的重要贡献,印证了搜索行为数据巨大的潜在价值。百度作为国内最大的搜索服务提供商,记录着丰富的用户搜索行为数据,利用这些数据,本文提出BS-MIP (Macro Index Predication based on Baidu Searches)模型,对宏观指标进行全程自动化地预测分析,同时规避了(类)GFT模型对专业领域知识的强依赖约束。在早期的预测模型中,为避免因漏掉重要特征导致模型失准,通常会选择把可能相关的特征全部引入到模型,但由此引入的特征冗余风险,可能导致模型失效。本文提出以GA-Lasso (Genetic & Adaptive Lasso)方法为核心的特征选择模块,将传统的特征选择方法与人工智能的思想相结合,提供了解决高维小样本问题和过拟合问题的实用方案。连续数值的离散化处理是数据预处理中的重要环节,不仅能够简化后续学习过程,提升学习效率。然而,无监督情境中的离散化问题,因缺少类标签信息的辅助,成为离散化处理中亟待解决的难题。本文结合聚类思想和集成学习的思想,提出了以KED (Kmeans based Ensembling Discretization)方法为核心的无监督的数据离散化处理模块,能高效地完成离散化任务。BS-MIP模型能够集成搜索数据预测宏观指标,对相关领域的类似工作具有重要参考价值,而GA-Lasso方法和KED方法则分别为其提供了可用性和可扩展性的保障,并且两个算法可以作为模块单独使用,具有较强的灵活性。