论文部分内容阅读
随着技术的飞速发展和数据速率的不断提高,数据分析和数据聚类的术语出现了新的变化。从数据来源分析的角度出发,我们认为开发探索性分析技术是一项具有挑战性的任务。K-Means算法实现简单,是目前最流行的聚类算法之一。本研究采用k均值算法对总体支出进行聚类。分析了老挝首都万象2018年家庭社会经济调查的数据。通过使用DB指数和SD效度指数,我们发现合适的聚类数量为三个聚类。然后利用关联规则技术确定变量之间的关系。结果表明,聚类间的关联规则相似。例如,家庭平均月收入与家庭平均月开支有关。此外,家庭规模与每户挣钱的人数有关。此外,家庭每月的烟草费用与有权报销医疗费用的一些人有关。K-Means是分区聚类中包含的聚类算法之一。k-means算法将数据集划分为若干个在开始时就已经设置好的k类。执行分区数据集来确定每个簇的特征,因此具有相似特征的簇被分组到一个簇中,具有不同特征的簇被分组到其他簇中。K-Means算法的优点是所需的执行时间相对较快,易于实现。但是K-Means算法也有缺点。其中之一是确定聚类的质心或随机选择的初始质心。在划分聚类的聚类方法中,聚类的中心或质心是聚类的起点。K-Means算法的聚类结果严重依赖于初始质心。如果已知初始质心为不良质心,则可以确定其聚类结果也不好。聚类分析是数据挖掘、信息科学、农业技术、生物医学等领域的一项重要技术。例如,在基因表达数据的聚类分析中,一些聚类算法被广泛使用,如K-means、围绕midoid划分、层次聚类和自组织映射(Gordon et al.,2005;Shamir等人,2005;Thalamuthu等人,2006年)。具有不同性质的不同聚类算法往往会给出多少或多少不同的解决方案,对于所有可能的数据集,没有单一的“最佳”聚类方法。然后,一个重要的工作是从候选聚类算法中为数据集选择一个合适的或最好的聚类算法。一旦聚类算法获得聚类结果,下一步就是评估聚类解,以确定数据集的最优解或聚类结构,通常是聚类的数量。这一步取决于群集结果的评估或群集验证,目的是找到最适合给定数据集的群集解决方案。关联规则挖掘是数据挖掘中最重要的技术之一,旨在提取事务性数据库中项目或产品集合之间的相关性。提取的大量关联规则是决策者面临的主要障碍。为了绕过这个问题,我们提出了一种基于K-means算法的关联规则分类和存储方法。K-Means算法实现简单,是目前最流行的聚类算法之一。然而,k均值聚类结果对初始质心的选择非常敏感。在大量数据集上进行的实验表明,该方法具有较好的聚类效果,能够有效地对关联规则进行分类。操作报警主要有两种类型。律师的模型是一种预测模型和监督模型。利用现有的分类与回归相结合的解决方案对洼地圈闭进行研究。第二种类型是构建描述模型,无监督模型在这种关联或聚类。数据挖掘的原理已经应用到各行各业,包括商业、医药、金融、银行、市场营销等。研究团队看到了数据挖掘的好处,因此,通过从万象首都统计中心获取家庭的社会经济数据,进行了“通过使用数据挖掘的聚类和关联技术进行社会经济家庭数据分析”的研究。我们收集了2018年的家庭社会经济调查共计39633项信息,包括来自全国各地家庭的收入、支出、家庭状况和财产以及公共设施信息,利用K-Means算法将相似的信息组合成一组,对本市内外住户的群体经济和社会基础进行了分析。然后使用关联规则来查找每个组中用于寻找持续关联的数据的关联。数据挖掘是在数据库中寻找知识(knowledge Discovery in database:KDD)过程中的一个步骤,所有的过程都将原始数据转化为可以被导入数据使用的知识。是以各种格式存储的信息,可能是来自数据库的数据文件或表,它们可能存储在相同的位置,也可能存储在不同的位置。根据CRISP-DM(Cross Reference Industry Standard for Data Mining)(Daniel T.L.,2005)的数据挖掘程序,这是戴姆勒克莱斯勒SPSS和NCR公司开发的数据挖掘标准流程,包括6个步骤:1.业务理解是理解问题,识别问题,将问题转化为适合数据挖掘分析的形式的过程。2.数据的理解是考虑到要使用的数据集和设置的假设将被用来解决问题包括相关信息的收集的信息将用作与适量的信息来源和用于分析提供足够的细节。3.数据处理这一步骤的目的是改变信息可以分析原始数据导入到一个表单,这被认为是一个耗时的过程最终,因为数据挖掘模型提供准确的结果或不取决于质量的数据分为三个步骤是:3.1数据选择是确定数据分析目标的一个步骤,只选择与目标集相关的数据。3.2数据清理是指过滤掉不正确的冗余数据或不需要使用的数据,管理不完整信息的过程。3.3数据转换是根据选择的挖掘算法数据,准备好待模型中准备用于分析的数据的过程。4.建模是一个过程,选择和应用数据挖掘技术用于通过这一步将各种技术来帮助退出隐藏模式数据挖掘工作的算法可分为2大类首先是建立预测模型关注分组基于可用的解决方案,如分类和分析第二种类型的回归是创建一个描述性的模型,它寻找的是一个没有解决方案的关系。5.解释和评估是对数据分析结果的有效性进行评估,评估结果是否全面,是否能满足第一步设定的业务需求。6.部署是规划和实现数据挖掘模型的好处。数据聚类是对相似的信息模式和趋势进行聚类,首先寻找一个具有代表性的聚类,然后将信息与具有代表性的聚类进行比较。如果信息与该群体的代表相似,则将其聚类在该聚类p中,将聚类数据分为两大类,即(Jain et al.,1999)。1.分区的集群数据的分类成小集群的数量根据集群由考虑到相似的信息在同一集团将具有相同或相似的特征的数据在不同的集群将有不同的特点和技巧。数据聚类分为K-means算法和模糊C-Means算法。2.聚类采用层次结构(分层聚类)将数据分组成小聚类,小聚类在大聚类和小聚类之间相互关联。层次结构的聚类有两种方法:自下而上聚类(自下而上凝聚聚类)和自上而下分裂聚类。关联规则是一种数据挖掘技术。这种方法的工作原理是从分析或预测各种现象可用的大数据中寻找数据之间的关系,或者是从对顾客购买行为的分析中寻找数据之间的关系,称为“模式分析购物车(购物篮分析)”,分析的结果将回答这个分析使用“关联规则”来寻找数据关系的问题。将这种技术应用于实际工作的例子是面向客户的图书推荐系统,自动的亚马逊公司数据。将处理发现数据之间的关系,顾客买一本书往往买哪些书总是在同一时间获得的关系这一过程可用于猜可以显示哪些额外的书应该建议客户刚从商店买的,如购买(x,数据库)buys(x,数据挖掘)[80,60]意味着哪里购买图书数据库就有机会以60%的价格购买数据挖掘图书,并以80%的价格购买数据库图书和数据挖掘图书。Apriori(Agrawaal and Srikant,1994)是一个普遍的算法寻找数据协会之前使用广泛的搜索原理原则来计算交易将建立和检查每一项层开始的项目与相同数量的成员好像把它支持值小于指定值的支持,这个项目将被省略。不用于创建集合项。在下一步中,算法的操作将循环。直到追完所有关卡或未设置项目时,在下一层中创建项目集。工作步骤如下:第1步是搜索一组有更多支持值的项目,以创建一组项目的最小支持。第1步创建关联规则通过从项集合中拉出一个具有高置信度值的关联规则来创建关联规则。最大支持度和最小置信度的Apriori算法。本研究的数据集是万象资本的社会家庭的调查数据分析,老挝人民民主共和国2018年收集的信息收入,费用,债务和财产的家庭住宅的特征以及每月收集数据(2018年1月至12月)组样本在首都万象。在这个阶段,使用K-mean算法聚类的数据。让我们在Weka程序中使用一种称为Apriori算法的关联规则技术来查找关联。从这个分析中,我们分析了(17)25人口支出的关联。在将数据导入Weka以创建关联规则之前,数据必须转换为.arff在数据挖掘中,选择需要的信息,以合适的格式提供信息,在数据进入挖掘过程之前,将数据缓慢保持转换为标准值(Z-score),以消除异常信息。通过选择信息,正常范围是标准值在-3到3之间的数据。然后,根据家庭开支,使用一种化学算法对花费相似的家庭进行聚类。在同一集群中,成本变量由7个主要变量组成:1)家庭每月食物和烹饪费用;2)家庭每月消费支出;3)家庭每月的住房费用;4)家庭每月医疗费用;5)家庭每月交通费;6)家庭每月教育费用;7)家庭每月特殊费用。然后通过关联规则来获取总体变量之间的关联,找出各组数据之间的关联利用k-均值算法对社会经济家庭调查数据进行聚类,将数据导入的39633项分为2个子步骤:步骤找到适当的聚类和数据聚类的数量。在一个聚类中找到合适数量的聚类。利用k-均值算法将社会经济家庭数据从2-10个聚类中进行分类,找出合适的聚类数目,对研究结果进行聚类。当使用K-Means算法对数据进行聚类时,通过指定2-10个簇中的簇数,可以注意到当簇数等于3时,最小的SD效度指数为84.464,当聚类数为2时,PBM指数最高,为0.0037,当聚类数为7时,DB指数最低,为1.121。那么可以看出,在cluster=7和cluster 3时,DB Index的值是非常相似的。此,研究者选择正确的集群数为3是因为当集群数为3时,3个性能指标中有2个是好的。如果SD效度和DB指数都比较小,说明聚类效果较好,反之,PBM指数越高,说明聚类效果越好。K-Mean算法聚类结果家庭社会经济数据的发现,每个集群有不同数量的成员与集群成员的大多数成员是集群2数量占70.45%,其次是集群3和1,紧随其后的是数量的21.77%和7.78%的成员按照计划。家庭集群1的特点:这个集群1中的总项数是3084件或总项数的7.78%家庭的一般特征在这个集群大多数项目有食物和饮料成本每月的家庭在1500000-2000000 1000000-1500000客栈,客栈根据主干或等于39.53%和25%1万-20万kip和20万-50万kip范围内的家庭每月非消费分别为44.42%和35.08%。家庭每月住房和家居用品支出在50-100万kip范围内,大部分占47.70%。医疗费用每月的家庭范围从5000-50000基普,最多显示50.39%其次是没有支出代表39.14%花在旅行和沟通的家庭是最在10000-200000基普,最显示42.02%,没有最没有费用教育费用49.84%,其次是5万至10万kip,占34.5%。根据肝脏。在组1中,占19.52%的家庭在Chanthavouri区最多,其次是Sisattanak区和Xaysettha区,分别占17.73%和15.01%。其中,100-250万知识产权最多,占42.09%;其次是250-500万知识产权,占37.09%。有平均每月1000000-2500000基普家庭支出,占54.25%,其次是2500000-5000000基普,占29.80%,家庭消费每月费用在1000000-2000000基普的范围小于1000000基普,最占49.22%和31.74%,分别家庭成员3-4人。最高的占44.94%,其次是1-2人,占29.12%。领取健康保险卡的人数最多为2-3人,占36.48%,其次为3人以上。31.42%的户主拥有小学教育程度最高的教育水平,占56.03%,其次是初中和中学,分别为29.35%和5.32%。住户组2的特征:住户组2的物品总数为27,923件,占住户物品总数的70.45%。这一组的大多数家庭都有食品支出。住户每月收入范围为50-100万千瓦及100-150万千瓦,或分别为53.20%及29.22。大部分家庭每月的非消费性支出在1万-20万kip和20万-50万kip的范围内,分别为71.66%和20.13%,家庭每月的住房和家居用品支出小于50万。大部分kip占55.67%。大多数家庭每月没有医疗费用,占47.19%,其次是5000-50000 kip,占45.75%。大多数家庭在旅行和沟通方面有费用在10000-200000 kip范围内,占70.72%,其次是20万-800000 kip占17.59%,没有教育费用的大多数家庭是56.35%,其次是50000-100000 kip,每月有特别支出的家庭在20万kip范围内最多为42.47%,其次为20万-40万kip和40万-60万kip或分别为29.81%和13.92%。第2组住户最多的是Sisattanak区,占28.74%,其次是Xaysettha区和Chanthavouri区,分别占28.72和13.14%。家庭月平均收入在1000-100万知识产权,占比最高,为48.52%,其次是100万-250万知识产权,占比为39.04%,家庭月平均支出在100万知识产权以下,占比最高,为56.82%。其次为100万至200万kip,分别为63.80%及34.60%。家庭成员数量为1-2人,最多,占45.80%;3-4人,占40.34%。医保卡成员在2-3人范围内最多,占42.94%,其次是3人以上,占24.97%,户主受教育程度最高的是小学或67.52%,其次是初中,占17.38%。组3住户的特征:组3住户的物品总数为8,626件,占住户物品总数的21.77%。该组大部分家庭的每月食物支出分别为150-200万lip和100-150万kip,或35.78%和32.76%。家庭每月非消费支出在20万-50万和50万-80万之间,分别占35.13%和25.72%。住房及家居用品支出在50-100万kip范围内,占比最高的42.42%。家庭每月的医疗费用以5000-50000 kip最多,占41.68%,其次是无费用。39.73%的家庭出行支出最多,沟通超过200万kip,占37.94%;其次是80-200万kip,占31.60%。在家庭教育中最没有费用,占39.84%,其次是50000-100000基普,或24.25%,有特殊费用的家庭每月超过800000基普最是53.20%,遵循由400000-600000基普和600000-800000基普,分别按照15.31%和14.89%。在西沙塔纳克区,第3组家庭最多,占21.79%,其次是沙伊塞塔区和查塔乌里区,分别占17.78%和1667%。150-500万kip最多,占66.79%,其次是500-1000万kip,占家庭平均月支出的14.89%,在250-500万kip最多,占79.86%。家庭每月消费支出在200万-300万kip之间,其次是100万-200万kip,分别占52.99%和35.72%,其中家庭成员3-4人,最多占48.38%,其次是5-7人,占25.55%。无会员领取医保卡最多,占31.51%,其次为2-3人,占30.11%。在小学教育范围内,户主的教育水平最高,为39.44%,其次为第二。分别为初中和本科,分别占26.69%和21.79%。研究人员根据重要程度展示了这些规则的顺序。从考虑来看,价值、可信度和支持法则的可信度值越大意味着规则包含的内容越重要,如果规则的可信度值与贡献值相同,则规则的贡献越大意味着规则优先。研究结果发现,聚类1共有59条相关规则,聚类2共有60条关系规则,聚类3共有24条关联规则。本研究是通过应用数据挖掘的知识来研究和分析社会经济家庭调查,根据人口支出对数据进行聚类,找出数据之间的关联,研究影响万象首都人口支出的因素。在本研究中,第一步是利用社会经济住户调查的数据,使用k-means算法聚类2-10群,以确定适当的聚类数量。聚类3给出了最佳的DB指标和SD效度指标。分类中使用的成本变量包括6个变量;1)家庭每月的伙食费;2)非消费费用;3)每月的住房及家居用品;4)医疗费用;5)旅行和沟通费用;6)教育费用。组1的住户特征为家庭月平均收入处于中等范围,支出处于中等范围。这将是家庭每月的食物,住房和家居用品的费用。家庭成员人数在3-4人左右,大部分家庭的金融资产价值较低。可以找到59条关联规则,配置支持度为30%,置信度为60%。第2组最高住户的特征代表平均每月收入及最低家庭开支住户的70.45%。在1-2人最多的家庭和成员没有工资的范围内,可以找到关联规则,共60条规则,50%配置支持度和60%置信度。3组家庭的特征为月平均收入和月家庭支出最高的家庭。家庭平均每月支出在250-500万kip之间。户主的教育水平高于另一组。教育水平以学士、硕士、博士为主。可以找到关联规则,共24条规则,配置支持度35%,置信度45%。研究发现,所产生的关联规则相似,如月消费支出与家庭平均月消费支出的关联。家庭联合的平均月收入与家庭联合的平均月开支和家庭规模与挣钱人数联合。