机器学习算法在数据挖掘中的应用

被引量 : 58次 | 上传用户:phirst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术,计算机技术及互联网的快速发展,各个社会领域均积累起了规模庞大的数据。随着信息系统的广泛应用,源自古老的数据分析及统计技术,加上现代的人工智能,数据库和统计学相关技术,研究如何充分利用大规模的数据,发掘出有用知识的数据挖掘技术迅速发展起来。机器学习是解决数据挖掘问题的主要方法之一。机器学习是一种利用系统本身进行自我改进的过程,使计算机程序能随着经验的积累自动提高性能,虽然到目前为止机器学习还不足以使计算机具备和人类一样强大的学习能力,但针对大量特定学习任务的算法的提出,使计算机具备了从大量数据中提取特征、发现隐含规律的能力,因此机器学习在数据挖掘中得到了广泛应用。本文针对两个具体的数据挖掘问题提出了基于机器学习算法的解决方案:第一个问题为利用大量路测的移动终端接收电平信号数据对GSM网络户外移动终端进行定位,针对这一问题,本文在过往成果的基础上提出一种基于支持向量机和k-近邻法的三阶段定位方法,该方法相对于以往基于机器学习的定位方法大幅提高了定位精度和定位速度。第二个问题为利用大量用户数据对新浪微博这一特定社交网络中的用户联系进行预测,对于在新浪微博中的链接预测,本文针对新浪微博的特点,提出了一个有效并且多维度的特征集合,并利用引入优化机制的支持向量机算法对该用户数据的特征集合进行训练后对新浪微博中的链接进行预测,得到了较高的预测精度与预测速度,并将这种方法与其他机器学习算法的性能进行了对比,最后使用特征重要性排序算法对特征集合中的特征重要性进行了比较,发现新浪微博中的用户链接受到用户兴趣取向和社会关系两个因素的影响很大。
其他文献
硅钢薄带是一种广泛应用于电力、电子工业的重要软磁材料。相比于传统硅钢片材料,6.5wt%的硅钢薄带具有更高磁导率、低磁致伸缩和低铁损等优异的软磁性能及高频特性,对降低变压
随着移动互联网和电信增值业务的快速发展,电信业务类应用需求量越来越大。传统移动应用开发模式下,应用开发人员需要自己先开发一些应用基础能力,比如界面框架、数据库创建
<正>1概述浙江仙居抽水蓄能水电站地下厂房共安装4套额定出力为375 MW的混流可逆式水泵水轮机,座环蜗壳设备由哈尔滨电机厂有限责任公司提供,由我部进行安装。水压试验按照哈
本论文研究了不同施氮水平下接种丛枝菌根真菌(Arbuscular mycorrhizal fungi,AMF)根内球囊霉(Rhizophagus irregularis)对欧美杨107(Populus×canadensis?Neva‘)生长、光合作用、
网络管理的理念随着信息技术的发展在发生着深刻的变化。其中,由于面向服务体系结构具有松耦合性、良好的互操作性、服务和数据的可重用性、服务组合的易操作性、以及很大程
随着智能家居、车载语音系统以及各种语音识别软件流行,语音识别逐渐走进人们的视野,凭借其实用性准确性得到了广大用户的喜爱,同时语音识别作为人机交互的重要接口,成为人工
<正>2001年2月27日,博鳌亚洲论坛成立大会在海南博鳌举行。2002年4月12日,博鳌亚洲论坛首届年会在博鳌举行。此后,博鳌开始从一个默默无闻的小镇变成了担当国家外交重要角色
猪的脂肪沉积的多少严重影响着猪肉的生产效率、猪肉品质、繁殖性能以及消费者对猪肉的选择。本研究通过B型超声波背膘仪对松辽黑猪和长白猪群体进行活体背膘厚度的测定,筛选
伴随着信息技术的飞速发展,我们迎来一个全新的“大数据”时代,其数据具有数据量大、产生速率快、时效性强、复杂性高等特性,数据处理的难度也越来越大。人们亟需功能强大、
<正> 作为农业高校,在改革和发展方面既具有一般高校的共性,又有农业高校自身的特点。如何根据农业高校自身的情况,积极探索建设具有中国特色和区域特点的社会主义农业大学的