基于统计学的大数据特征分析研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:zhoubin_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展带来了数据的大量积累,与此同时互联网服务质量的提升依靠高效的数据处理能力。机器学习是解决使用大数据提升互联网质量问题的最佳方案,然而目前机器学习模型高度依赖于相关性很大的特征。因此,特征分析是处理好大数据背景下提升机器学习泛化能力的关键。统计范畴下的特征分析至少包括特征预处理和特征选择两个方面。从信息论的角度,特征预处理通过升维提升信息的“可靠性”,特征选择通过降维来提升信息的“有效性”。研究特征分析的意义不仅在于降低机器学习的成本从而提升互联网的服务质量,更在于解决现存的民生问题,比如看病难问题,更在于利用人类行为规律解决人类长远可持续发展的问题。本文研究以下四个问题:第一,本文研究了特征预处理问题。分析了特征采集与存储、特征的形式变换、异常特征值检测与处理、缺失特征值处理、时间序列特征处理、空间数据特征处理、不平衡特征处理七个方面的前沿技术和算法。第二,本文研究了特征选择算法。比较了基于相关度的过滤式选择、基于Lasso的稀疏选择、基于集成方法的嵌入式选择、基于神经网络的自动选择四种模型方案,分析了各个算法的计算时间复杂度、优缺点、应用场景。第三,本文解决了慢性肾衰竭预测问题。使用了均值填充、哑编码、特征排序等技术,提出了基于决策树、支持向量机、逻辑回归、随机森林四种模型的堆叠模型,模型召回率达99.63%,精度达99.55%,通过交叉验证实验证明了特征分析在疾病预测领域的可行性。第四,本文研究了人类行为可预测问题。分析了是什么因素影响Github用户的贡献行为,发现了可预测性与用户活跃度香农熵成线性的规律,证明了平均可预测性为93%的观点。
其他文献
推行低碳经济,走低碳发展之路,关键有两点:一是节能降耗,二是大力开发利用新能源和可再生能源。地热是新能源大家族中最具竞争力的能源之一,具有热能供应持续稳定、工程占地少
目的分析阐述黛力新治疗功能性胃肠病的疗效。方法选取2017年7月~2018年7月我院收治的功能性胃肠病患者60例作为研究对象,将其随机分为对照组与观察组,各30例。对照组患者服
我国著名的教育家陶行知先生说过:“真正的教育是心心相映的活动,唯有从心里发出来的,才能打到心的深处。”在当今信息化社会,特别是教育的多元使得我们教育工作者必须从新审
本文从抗寒性的遗传、测定方法、组织器官、生理生化指标及种质资源等几个方面对梨的抗寒性研究进行较为系统的阐述,同时提出我国梨抗寒性研究中值得注意的问题。
锡林浩特市位于内蒙古自治区中部,是我国温带典型草原的核心分布区和重要的草地畜牧业生产基地,草地畜牧业是当地经济发展的重要支柱和地方财政收入的主要来源。然而,由于人
随着我国法治建设的不断推进和深化,我们欣慰地看到民众浓厚的厌诉情绪在一定程度上有所改观,越来越多的人拿起法律的武器维护自己的合法权益,诉讼已经成为了民众维护自身利
现代化最本质上体现了人格的现代化。治理不仅仅是一种机制,更是一种价值理念。治理现代化是中国经济社会发展与构建和谐社会的必然要求。治理现代化的提出为政府领导力的提
为寻求微咸水膜下滴灌的最优灌溉制度,分别用微咸水(矿化度为2.7g/L)、净水(矿化度为0.18g/L)、混合水(微咸水与净水按1∶1混合,矿化度为1.6g/L)3种水质,分析5种灌溉制度对辣
采用熔融接枝法分别制备马来酸酐接枝聚乳酸、甲基丙烯酸缩水甘油酯接枝聚乳酸和马来酸酐/甲基丙烯酸缩水甘油酯共接枝聚乳酸,并利用红外光谱对接枝共聚物进行结构表征。分别
以格尔木河为研究对象,应用Bauwer渗水仪以及竖管法,探究了河水的入渗规律,计算了河床沉积物渗透系数,找出河床渗透能力沿河的变化情况,测定了河流在不同水头下的渗透流速。