论文部分内容阅读
摘要:机器学习算法是当前数据挖掘活动中的重要算法,其在人工智能的技术支持下,可在完成样本集学习与训练后,获取运算所需的模式与参数。本文对机器学习算法进行分析,重点研究其应用情况,确定其在定位问题、处理与采集数据以及其他的定位技术中的应用情况,以此来更好地发挥出机器学习算法的作用,提升数据挖掘水平。
关键词:机器学习算法;数据挖掘;应用方法
数据挖掘技术是大数据时代中的一项重要技术,可实现处理信息的技术需求,同时减少管理与应用数据的成本。在实施挖掘数据的活动时,可应用机器学习算法,应用计算机设备对人类行为加以模拟,以此展现出人工智能技术的优势。现研究如何在挖掘数据的过程中,应用机器学习算法。
1机器学习算法
数据挖掘算法主要包括统计算法与机器学习算法。使用统计算法时,需要展开判别与概率分析、聚类分析与相关性分析;采取机器学习算法时,需引进人工智能技术,完成对数量较多的样本集学习与训练后,可确定运算所需的模式与参数。这两种算法能够对应不同的数据挖掘目标与领域,既可结合应用,也能够各自单独使用。
机器学习算法的优势体现在自组织学习与数据处理等方面,能够满足精准识别的应用要求,对问题进行分类后实施数据处理。相比BP神经网络,人工神经网络的学习效率高,其借助模型实现应用目标,可用的模型具有多样化的特点,可对各种需求进行满足,鲁棒性良好,描述能力强,并且不需要专家支持作为前提。在运用时,必须掌握其存在的问题,如数据训练需要充足的时间,理解获取的知识的智能化程度偏低,在可伸缩性与开放性方面也有受限的情况。与其他算法相比,机器学习算法需要对人工智能技术进行依靠与运用,收集大量的样本,展开训练与学习,运算时则可以自动对相应模式与参数进行匹配,该技术具有较强的综合性,对计算机科学、自动化。物理学以及数学等学科进行综合,进而可在更多的领域中发挥作用,实现差异化的应用目标。在神经网络中运用机器学习算法使,需建设出神经元模型,确定数据具有的基本特点,分析出相应问题的结论。
2数据挖掘中应用机器学习算法
2.1定位问题与建模
移动终端已经实现大范围普及,手机用户数量激增,借助移动设备提供的定位数据,即可了解其所处的地理空间位置,对用户信息进行识别与挖掘,了解用户偏好,区域发展情况等重要信息,投资者、运营者以及政府可运用信息开展实际活动。进行数据挖掘活动时需要在海量信息中精准提取并挖掘具有一定价值的数据,挖掘过程中,应运用计算机,对挖掘目标进行有效实现,集合数据,在线分析数据,筛选数据等。对机器学习算法进行应用时,首先可以实现对问题的定位,确定定位方式,不可忽视向量机存在的定位需求,做好构建模型前的准备工作;在定位区域中实施栅格化处理,并对类别进行有效划分;从终端处获取测量信息并进行整理,结合相关报告确认终端位置,在机器学习算法的支持下,掌握栅格精准度与距离度量,预估判断移动终端栅格情况,通过机器學习算法来实现求解。
2.2采集与处理数据
以周边边长数值为10km的区域为研究对象,应用模型,在该区域范围内,对多个时间段的相应数据进行获取,为了强化机器学习算法在定位活动中的有效性与精准性,可将三批数据设置成训练数据,定位数据为其中的最后一批数据,清除定位数据周边10m范围内的训练数据,具体为前三组数据。对待定位的信息数据进行确定后,继续在各个时间点展开测量,明确数据的平均值与经纬度,实施换算,所获得的数据量更加真实,定位不仅能够满足有效性要求,还能保持极高的定位效率。
2.3应用于定位活动
在对移动终端进行定位时,机器学习算法虽然能够满足定位要求,但是应用过程相对比较复杂,区域面积扩大后,模型的分类以及数量也应有所改变,同样出现复杂化的特点。因此选择机器学习算法时,要考虑到区域面积发生变化后,往往需要消耗更长的时间。早期定位时,主要采用基站的实际经纬度。对边长数值为10km的正方形展开切割,形成的小栅格为1km,计算小栅格的相应数据,即可实现对数据集信息的精准定位,整合数据集。
选定2km边长的正方形,向量机在首次支持的环节中定位范围设置成0.4km,第二次则能够实现自由输出栅格数据的需求,可输出经纬度数据,并以0.1km栅格作为基本中心。对比不同的定位结果,第二次定位计算过程更加复杂,既要完成向量机分类样本的计算,同时还需进行决策函数的计算,使用成对分类法来处理分类问题,分类问题的具体增加量与定位精度之间存在反比的关系,分类问题所形成的增加量与定位复杂化程度之间具有正比的关系,当增加量逐步缩减时,定位精度将随之提高,同时复杂化程度也降低;而当分类问题增加量呈现出上升趋势后,定位复杂度将明显增高,同时精度随之降低。进行向量机的首次定位后,应选出大小适当的栅格,对分类问题的数量实施最小化处理,依照处理结果设置向量机二次定位时栅格的尺寸,进而获得更加精准的测量结果。
处理数据样本时,也能够突显出机器学习算法所具有的计算推演优势,在线性数据中进行采样,在多维度的数据空间中展开精准计算,如果维度数量过多,应展开点积计算,注重非线性区域与线性区域之间的演变情况,进而实现对复杂问题的有效解决,实现数据挖掘目标。
进行三次定位时,需要将K-近邻法作为定位基础,首先掌握定位区域的具体面积,实施二次输出后,了解经纬度信息,根据经纬度以及其他信息进一步确定面积与边长,为后续的定位做好完备的前期准备工作,训练定位模型,在该定位模型中,必须对训练数据进行综合处理,结合具体的大小情况,展开合并与筛选,以此避免出现过多的重复计算行为,提升计算效率,缩短计算所需的时间,同时还需注意到当选定的区域面积加大时,定位的精确度与速度均会出现不同程度的降低。
3结论
本文主要对数据挖掘活动中的机器学习算法进行分析,确定该种算法的优势与应用情况,其在定位活动中有良好的表现,确保满足精准度方面的要求。结合不同的数据挖掘需求,应继续完善机器学习算法,以此来将该算法的使用范围进一步扩大,保持算法的优越性的同时,消除算法应用问题,强化使用效果。
参考文献
[1] 郭皓. 机器学习算法在数据挖掘中的应用研究[J]. 数字通信世界, 2019, 171(03):177-177.
[2] 戴惠丽. 大数据背景下机器学习在数据挖掘中的应用研究[J]. 吕梁教育学院学报, 2019, 036(003):P.20-21.
[3] 叶梓. 机器学习算法在数据挖掘中的应用[J]. 信息与电脑, 2019, 031(018):59-60.
关键词:机器学习算法;数据挖掘;应用方法
数据挖掘技术是大数据时代中的一项重要技术,可实现处理信息的技术需求,同时减少管理与应用数据的成本。在实施挖掘数据的活动时,可应用机器学习算法,应用计算机设备对人类行为加以模拟,以此展现出人工智能技术的优势。现研究如何在挖掘数据的过程中,应用机器学习算法。
1机器学习算法
数据挖掘算法主要包括统计算法与机器学习算法。使用统计算法时,需要展开判别与概率分析、聚类分析与相关性分析;采取机器学习算法时,需引进人工智能技术,完成对数量较多的样本集学习与训练后,可确定运算所需的模式与参数。这两种算法能够对应不同的数据挖掘目标与领域,既可结合应用,也能够各自单独使用。
机器学习算法的优势体现在自组织学习与数据处理等方面,能够满足精准识别的应用要求,对问题进行分类后实施数据处理。相比BP神经网络,人工神经网络的学习效率高,其借助模型实现应用目标,可用的模型具有多样化的特点,可对各种需求进行满足,鲁棒性良好,描述能力强,并且不需要专家支持作为前提。在运用时,必须掌握其存在的问题,如数据训练需要充足的时间,理解获取的知识的智能化程度偏低,在可伸缩性与开放性方面也有受限的情况。与其他算法相比,机器学习算法需要对人工智能技术进行依靠与运用,收集大量的样本,展开训练与学习,运算时则可以自动对相应模式与参数进行匹配,该技术具有较强的综合性,对计算机科学、自动化。物理学以及数学等学科进行综合,进而可在更多的领域中发挥作用,实现差异化的应用目标。在神经网络中运用机器学习算法使,需建设出神经元模型,确定数据具有的基本特点,分析出相应问题的结论。
2数据挖掘中应用机器学习算法
2.1定位问题与建模
移动终端已经实现大范围普及,手机用户数量激增,借助移动设备提供的定位数据,即可了解其所处的地理空间位置,对用户信息进行识别与挖掘,了解用户偏好,区域发展情况等重要信息,投资者、运营者以及政府可运用信息开展实际活动。进行数据挖掘活动时需要在海量信息中精准提取并挖掘具有一定价值的数据,挖掘过程中,应运用计算机,对挖掘目标进行有效实现,集合数据,在线分析数据,筛选数据等。对机器学习算法进行应用时,首先可以实现对问题的定位,确定定位方式,不可忽视向量机存在的定位需求,做好构建模型前的准备工作;在定位区域中实施栅格化处理,并对类别进行有效划分;从终端处获取测量信息并进行整理,结合相关报告确认终端位置,在机器学习算法的支持下,掌握栅格精准度与距离度量,预估判断移动终端栅格情况,通过机器學习算法来实现求解。
2.2采集与处理数据
以周边边长数值为10km的区域为研究对象,应用模型,在该区域范围内,对多个时间段的相应数据进行获取,为了强化机器学习算法在定位活动中的有效性与精准性,可将三批数据设置成训练数据,定位数据为其中的最后一批数据,清除定位数据周边10m范围内的训练数据,具体为前三组数据。对待定位的信息数据进行确定后,继续在各个时间点展开测量,明确数据的平均值与经纬度,实施换算,所获得的数据量更加真实,定位不仅能够满足有效性要求,还能保持极高的定位效率。
2.3应用于定位活动
在对移动终端进行定位时,机器学习算法虽然能够满足定位要求,但是应用过程相对比较复杂,区域面积扩大后,模型的分类以及数量也应有所改变,同样出现复杂化的特点。因此选择机器学习算法时,要考虑到区域面积发生变化后,往往需要消耗更长的时间。早期定位时,主要采用基站的实际经纬度。对边长数值为10km的正方形展开切割,形成的小栅格为1km,计算小栅格的相应数据,即可实现对数据集信息的精准定位,整合数据集。
选定2km边长的正方形,向量机在首次支持的环节中定位范围设置成0.4km,第二次则能够实现自由输出栅格数据的需求,可输出经纬度数据,并以0.1km栅格作为基本中心。对比不同的定位结果,第二次定位计算过程更加复杂,既要完成向量机分类样本的计算,同时还需进行决策函数的计算,使用成对分类法来处理分类问题,分类问题的具体增加量与定位精度之间存在反比的关系,分类问题所形成的增加量与定位复杂化程度之间具有正比的关系,当增加量逐步缩减时,定位精度将随之提高,同时复杂化程度也降低;而当分类问题增加量呈现出上升趋势后,定位复杂度将明显增高,同时精度随之降低。进行向量机的首次定位后,应选出大小适当的栅格,对分类问题的数量实施最小化处理,依照处理结果设置向量机二次定位时栅格的尺寸,进而获得更加精准的测量结果。
处理数据样本时,也能够突显出机器学习算法所具有的计算推演优势,在线性数据中进行采样,在多维度的数据空间中展开精准计算,如果维度数量过多,应展开点积计算,注重非线性区域与线性区域之间的演变情况,进而实现对复杂问题的有效解决,实现数据挖掘目标。
进行三次定位时,需要将K-近邻法作为定位基础,首先掌握定位区域的具体面积,实施二次输出后,了解经纬度信息,根据经纬度以及其他信息进一步确定面积与边长,为后续的定位做好完备的前期准备工作,训练定位模型,在该定位模型中,必须对训练数据进行综合处理,结合具体的大小情况,展开合并与筛选,以此避免出现过多的重复计算行为,提升计算效率,缩短计算所需的时间,同时还需注意到当选定的区域面积加大时,定位的精确度与速度均会出现不同程度的降低。
3结论
本文主要对数据挖掘活动中的机器学习算法进行分析,确定该种算法的优势与应用情况,其在定位活动中有良好的表现,确保满足精准度方面的要求。结合不同的数据挖掘需求,应继续完善机器学习算法,以此来将该算法的使用范围进一步扩大,保持算法的优越性的同时,消除算法应用问题,强化使用效果。
参考文献
[1] 郭皓. 机器学习算法在数据挖掘中的应用研究[J]. 数字通信世界, 2019, 171(03):177-177.
[2] 戴惠丽. 大数据背景下机器学习在数据挖掘中的应用研究[J]. 吕梁教育学院学报, 2019, 036(003):P.20-21.
[3] 叶梓. 机器学习算法在数据挖掘中的应用[J]. 信息与电脑, 2019, 031(018):59-60.