大数据时代下社交网络的"魅力"

来源 :科学与财富 | 被引量 : 0次 | 上传用户:bababa666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:近年来,失信被执行人的数量和被执行金额都有所增加,因此案件的有效执行成为了影响社会稳定的重要因素。法院也针对该现状逐步完善了相关立法和条规,加强了对失信被执行人的惩治措施和追查力度。本文为了帮助法院提高找人的效率,提出了一种基于用户社交网络信赖度的居住地位置推测PLRU(Predict Location Based on the Reliability of Social-online Users)模型。本文根据失信被执行人的在线社交历史进行相关社交用户的信赖度估计及筛选,然后对选取的用户 社交聊天文本有关居住地维度权重的内容提取并进行估计。最后,结合失信被执行人历史居住地的用户画像来筛选得到居住地预测范围。
  关键词:在线社交;居住地预测;信赖度模型
  随着移动设备、无线网络和社交网络的飞速发展,以聊天为主的各种软件成为社交必备。目前典型的有微信、QQ、Twitter、LINE等,在社交聊天的过程中,用户会在其朋友圈、空间中分享有关他们活动的地理位置信息,这使得地理位置数据逐渐成为一种质量极高的信息资源。同时社交网络不仅包括了传播信息,还包括用户行为。我们的社会活动是在不断地与他人联系和互动中形成,所以很多情况下人的行为只有在情景上下文中才能得到理解。因此本文假设,若一名失信被执行人在面对法院追查的情况下,最大概率行为的是向其好友寻求帮助。其中好友并不仅代表朋友,是指以聊天软件为基础得出的信赖值排名较高的用户。本文基于用户信赖度提出的PLRU模型主要分为三块内容:用户信赖度赋值、本地词语提取和历史居住地用户画像。
  一、问题描述
  本文的研究目标是利用与好友的社交内容来预测失信被执行人的未来居住地信息。主要有以下几个目标:①如何通过社交网络来准确得到可靠的用户信赖度权重;②如何利用好友社交互动提高地理关键词的准确性;③对居住地信息的用户画像维度权重的准确计算。
  本实验以微信、QQ、Twitter和LINE为信息来源,对被研究对象的聊天软件互动信息进行研究,并进行聊天好友用户进行信赖度估计,选取高信赖度的好友聊天内容进行地理关键词提取构建本地词语。最后结合居住地用户画像的维度评分来确定居住预测地。本文的重点在于提取高质量的地理词文本,但前提是需要提高已收集到的资料中文本提取的有效性以及提取范围的可靠性。因此,本文通过以用户信赖度的计算为前提进行数据前期处理,有效缩小提取范围并在提高运行效率。
  二、基于社交聊天的用户信赖度估计
  面对庞大的聊天文本数据,要想提高对聊天文本中地理信息的关键词提取的运行效率以及质量,就须划分出有效的数据集,准确缩小查找范围。所以本文提出以用户信赖度为基础对数据文本划分,进行有效的内容查找提高执行效率。在测算好友信任度时,可分为直接好友与间接好友分别进行测算。Yang等提出一种基于朋友信赖圈的社会化标签推荐算法,与Ma、Wang等人都是通过给不同的好友赋予不同的权重来计算用户之间的信赖值;潘一腾等人则是提出了信任隐含相似度为基础进一步对信任度的评分进行改进。冯宇等人则是以社会学六度分割理论为基础,计算对用户的信任度。这些对信赖强度进行探索的工作,很好的挖掘了社交关系中的隐含信息,但不能很好的处理评分和信赖数据稀疏的情况。本文主要针对这些工作的以下两个不足之处进行改进,在信赖数据稀疏的情况下,也能得到有效的结果,并对每组用户间的信赖强度综合进行考量。
  首先根据社交聊天收集到的实验数据,本文以对失信被执行人的社交好友进行信赖度进行估计。以聊天的频率、内容及社交时间等进行数据采集估计,得出的信赖值为(0,1)。其中,好友分为直接好友与间接好友,分别对其进行用户信赖度的计算,对间接好友的不同路径产生的信赖度进行加和。在选取的样本量较大的前提下,我们可以发现用户的信赖度总评分随好友量的增加呈半曲线性递减。选取信赖度有效并评分较高的前n个,作为有效的筛选结果。
  三、基于语义的地理特征词以及情感词的提取
  在传统的本地词语提取方式中,主要有LDA模型、TF-IDF算法和基于共现词的关键词提取算法等。刘江华提出了一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证,但是缺乏情感词的提取,无法反映出对不同地理词态度。和志强则对基于词共现的关键词提取算法研究与改进,提出了一种优于TF-IDF的算法,不过也没有对情感类词的提取进行优化。本文利用一种以DBSCAN聚类算法为基础结合LDA主题模型的DDA模型来对文本检索来进行本地词语R的提取以及得到相关的情感词Z来显示相关的态度,来得到情感偏好的主要地理位置。首先从文本数据集中得到相关的文本数据,然后利用通过设置邻域半径与密度阈值 DT, 将满足领域半径的点分类汇集成一个中心群,能有效得将密度距离外的点进行除噪工作,其中与DT如下所示:
  由于计算每份文档中每个字词的词频(Term Freqiency,TF)与计算字词的特殊性所用的文档频率(Dociment Freqiency,DF)都会导致字词的权重计算结果不同,为了解决文档的篇幅对词语权重计算的影响,以及在文档内容中被遗漏而导致缺失的词语内容,利用公式:
  Wij是修正过后字詞fj在文章中的权重,tfij为词于聊天内容中出现的次数,N为集合聊天文本数,nj为的字母数。maxT为文件集合中拥有最大词频的字词总数之词频数,用来解决较高词频的问题
  四、基于模糊综合分析法的权重模型
  经过上述实验流程之后,我们可以根据筛选出的信任用户,即本文称为的好友及与其之间的聊天内容计算得到失信被执行人常出现并情感偏好的几个主要地理位置,这将成为实验预测居住地范围的重要位置。同时,我们还需要查找失信被执行人的历史居住地资料,包括身份证地址、房产证地址、租赁信息地址以及淘宝收货地等,对其躲藏前的常驻地的居住地信息进行居住地用户画像刻画。   本文将失信被执行人的居住地的历史用户画像维度定义为U,l为维度数,                           。杜德斌、张小玉等人大致都将影响因素分为房价、交通、环境、就业可达性、工作地、家庭生命周期、居民社会属性和收入。本文结合众多学者从年龄段、是否为外来人口等不同角度对影响居住区选择的因素研究,采用模糊综合分析法可以避免凭经验进行目标选择所固有的主观性,使并购决策更加科学合理等。对U进行服务设施、交通条施件、环境状况、房价和归属感五个维度的权重计算。同样的,我们将得到的情感词语Z按照相同的分类准则进行以上五个维度的划分,通过各自维度的词数           与总维度词数af的比值分别得到不同维度的词频率,即得
  其中 代表在聊天内容中展示出的对不同维度的敏感程度,敏感程度越高,其代表的WZn可靠性越高,再结合其历史居住地得到的维度权重评分Wbn,可以利用附近或类似的居住地评估报告得到相关权重评分,进行加权得到最终的权重Wn。按照我们得到的维度打分表,对已得到的几个关键地理位置进行打分,从而得到评分最高的地理位置,即最终居住地预测点。
  五、结果分析
  本文利用法院以往的历史案例存档数据进行了相应的实验检测。其中,用到的相关案例中的中带有位置的聊天内容共有708920条数据,占全部数据的33%。利用本文提出的PLRU模型,进行大数据实验,并将实验结果与Flap模型,UGC-LI模型进行实验效果对比,发现结果的准确率得到了提高,运行时间也相比各缩减了20%与13%,有效验证了本模型对居住地预测的有效性。对比结果如下所示:
  在实验结果中选取其中部分实验结果进行准确度的对比,发现本模型下的实验准确度较高。同时,以Flap模型和UGC-LI模型为基准进行PLRU模型执行效率的对比,发现本实验模型的执行效率也都有显著的提升。
  针对居住地不明的失信被执行人,本文利用网络社交聊天,提出了一种基于用户社交网络信赖度的居住地位置推测PLRU模型。该模型有效的融合了社交网络中的用户信赖度与地理位置频率,在失信被执行人的居住地位置推断预测过程中,不仅考虑了用户之间的信赖度与聊天情感词,同时引进了居住地用户画像,更具有针对性的对可能的居住地进行位置点筛选,有效得提高了结果准确性。在追踪失信被执行人的过程中,失信被执行人的用户好友会发布实时动态,这些动态能帮助我们及时更新本地词语库,更具时效性。
  参考文献:
  [1]潘一腾,何发智,于海平.一种基于信任关系隐含相似度的社会化推荐算法[J].计算机学报,2018,41(01):65-81.
  [2]冯宇,李爱萍,段利国.融合社交关系和位置影响的地点推荐算法[J].计算机工程与设计,2018,39(09):2934-2940.
  [3]刘江华.一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J].情报科学,2017,35(02):16-21+26.
  [4]和志强,王丽鹏,张鹏云.基于词共现的关键词提取算法研究与改进[J].电子技术与软件工程,2018(01):144-146.
  [5]杜德斌,崔裴,刘小玲.论住宅需求、居住选址与居住分異[J].经济地理,1996,16(1):82-90.
  [6]张小玉,张志斌.兰州市居民居住区位偏好研究[J].干旱区资源与环境,2015,29(05):36-41.
  作者简介:
  傅扬岚,1996年6出生,女,汉族,浙江金华人,研究生在读,浙江财经大学会计学院。
  (浙江财经大学 浙江 杭州  310018)
其他文献
摘 要:电能是一种重要的资源,它在社会生活发展中扮演着越来越重要的角色,人们的日常生活与生产都离不开电能的使用,电能在社会经济的发展中变得越来越重要。广大电力企业对电力的计量过程,与供电方和用电方有直接的利益关系,其中电力谐波对电力计量的准确性非常重要。该文对电力计量中电力谐波的影响和措施做了详细的阐述,目的是为电力企业的工作人员提供参考。  关键词:电力计量;电力谐波;运行机制;整体结构  0
期刊
摘 要:经济的快速发展也导致环境形势也越来越严峻,特别是大气环境,在近年来世界各个国家的大量废气排放,环境的整体质量下降了很多,这对人们的身体健康产生了很大的影响。改善大气污染的环境现状,优化生态环境,是保证人们身体健康与生活质量的关键性措施。同时,在处理环境污染源时,要结合实际情况,采取改善污染问题现状的有效措施,确保大气环境治理效果显著提升。  关键词:环境工程;大气污染;治理措施  在我国工
期刊
摘 要:公路在交通领域中占有重要的影响地位,不单单可以加快物资流通速率,带动区域之间联系,同时更能够促使区域经济得到协调性发展。由此,本文将在客观阐述公路运输的优势、建设的现实意义基础上,探讨其对于我国经济社会的发展贡献。  关键词:公路交通;经济发展;研究  做好公路建设工作,能够为民众日常出行提供便利,促进不同区域之间的交流,加速人力、物力、财力等资源的流通,进一步带动产业结构更新升级,维持经
期刊
摘 要:近年来,支付方式的革新推动了电子商务市场的蓬勃发展。一方面,互联网第三方支付机构的出现解决了创新型互联网产业发展中的资金流转问题,为相关产业创造了便捷、高效、安全的交易环境。另一方面,互联网第三方支付机构不断开展产品和业务创新、拓展应用领域,为众多个人或单位用户提供多样化、个性化的支付转移服务。本文分为三部分,第一部分对互联网第三方支付进行概述、第二部分描述了我国目前发展现状,存在哪些问题
期刊
摘 要:继2010年~2012年中概股公司频繁遭做空之后,2019年~2020年因为全球经济不景气宏观原因和自身内部控制问题做空中概股公司又掀起了一波浪潮。本文以在港交所上市、重视创新、与全球领先制药企业建立战略合作伙伴关系的中概股A公司为例,根据B做空机构发布的做空报告从内部控制五要素出发,分析A公司内部控制存在的问题,并且提出相应解决措施,以期对中概股公司完善内部控制建设,提高内部控制效率,对
期刊
摘 要:随着现代社会对压力管道使用的不断增多,其质量检测就成为一项重点工作。传统检测技术在检测全面性上存在明显缺陷,对此,本文对当前的磁致伸缩导波技术展开探讨,对其技术原理、检测系统的设计和应用效果等进行了研究分析。  关键词:磁致伸缩导波技术;管道检测;系统设计;效果分析  引言  管道运输是五种常见的运输方式之一,压力管道越来越广泛的应用与石油、化工、热电、供水、供热等行业。作为这些工程行业中
期刊
摘 要:在信息化时代背景下,农业种植技术也不断发展与更新,但是农作物种子种植仍需要承担一定风险,其中主要风险因素包括自然灾害与人为因素。外部环境因素,可能对种子的正常成长发育造成不利影响,从而导致作物收成的降低,并且一些种植问题随之而来。在现代农业经济发展环境下,优质农作物种子的选择,是至关重要的,不仅是种植风险因素控制的基本保障,还有利于种植管理工作的有序推行。在实际种植过程中,农户还应结合当地
期刊
摘 要:针对目前柔性包装袋缺陷检测研究稀少的现状,提出一种基于机器视觉和图像处理的柔性包装袋缺陷检测方法。检测方案包括硬件系统设计、检测算法设计、基于SVM的分类器模型设计和实验方案设计四个方面。提出的方法能同时对产品整体外形和表面印刷缺陷进行检测,具有创新性和现实意义。  关键词:机器视觉;柔性包装袋;缺陷检测  1 引言  包装是商品信息、企业文化和形象的外在表现,在人们日常消费选择中起到的作
期刊
摘 要:在当今互联网的高速发展过程中,通过电商平台人们足不出户就能购买到自己心仪的各类生活用品,大型的电商平台如淘宝、京东等的竞争愈来愈加激烈。电商的发展不仅使人们的生活变得更加方便,而且满足了人们的购物需求。大型电商发展的同时,出现了许多小型的电商平台,如网易严选,白熊心品。本文主要以白熊心品作为研究对象,运用SWOT分析法,分析了白熊心品的品牌定位,提出了白熊心品未来的市场发展趋势。  关键词
期刊
摘 要:倒閘作业是变电运行中的核心操作内容,直接影响整个电力系统的安全平稳运行。当前,部分变电站运行期间,倒闸操作存在一些突出问题。本文探讨了倒闸作业误操作的原因,论述了变电站倒闸操作存在的具体问题,并提出了一系列具体措施,以期有效提升变电运行倒闸操作水平。  关键词:变电运行;倒闸操作;误操作原因  1 倒闸作业误操作的原因  1.1 操作人员工作态度消极,综合素质较低  当前,在变电运行倒闸作
期刊