大数据与机器学习构建动态企业级画像系统

来源 :科技风 | 被引量 : 0次 | 上传用户:yintao001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  关键词:网络爬虫;自然语言处理;动态企业画像
  1绪论
  企业级画像系统是以企业为主体,通过对企业规模、经营范围、公司人数、注册资本、财务状况、招聘状态、最新业务动态等信息进行采集和分析,构建出不同标签的企业画像。企业画像的内容可以根据具体的应用场景进行定制化设定。企业画像的标签可以是一个公司的发展阶段(初创、成熟、衰退),可以通过财务状况而判断出来的公司的健康程度,亦可以是公司的发展方向等,从而为B2B业务的企业画像提供更多维度来帮助企业进行精准营销,优化推广渠道,以及实时调整市场战略。在此,尝试利用大数据与机器学习构建一个企业级画像系统,并且实现精准实時地更新企业画像,从而可对以B2B业务为主的公司起到一定的辅助作用。
  2数据采集
  通过网络爬虫获取实时数据。
  (1)爬取网站。由于企业级画像主要会涉及公司信息,目前提供公司信息的主要平台有天眼查、IT桔子、企查查等,而公司的最新动态以及最新科技新闻可通过新浪网、腾讯网、今日头条等获取。这些网站所提供的数据都为公开数据,不存在商业敏感问题,且数据质量较高,还能够提供较为完整的企业信息,但有些网站需付费使用,而有些网站有反爬虫机制,因此需要结合特定的应用场景以及成本预算,选择合适的网站进行爬取。根据数据库的性能以及业务需求,制定合理的爬取范围以及爬取时间,如要实现实时动态的企业画像,则需要较高的数据库配置以及模型训练所需要的内存空间。
  (2)爬取内容。企业画像的维度通常包括企业行业的分类、企业所处阶段(初创、成熟、衰退)、企业健康指数、公司主营业务变更、企业最新舆情等。其中企业行业分类通常可以按照主要经营业务、经营范围、企业简介等信息中的关键词,例如“娱乐”“工业”“医药”等进行分类;企业所处阶段通常需要获取公司创立时间、注册资本、财务报表等数据进行判定;企业健康指数需要通过公司招聘信息、申请专利数、盈利状况等数据进行计算;公司主营业务变更以及最新舆情可以通过公司在新闻网站发布的官方新闻获取。
  (3)爬虫技术。针对网络爬虫的工具有很多,由于Python语言优美,代码简单,模块功能强大,现已成为数据挖掘、机器学习、人工智能首选编程语言。其中Python Scrapy网络爬虫框架由于灵活性高、社区人数多、文档完善,所以被广泛使用。由于部分网站存在大量JavaScript以及加密信息的反爬虫壁垒,可能会涉及需要更多的破解方法来进行爬虫,可利用sele-nium+chromdriver模拟chrolTle浏览器获得渲染后的页面,再使用PyQuery对源码进行解析,解决JavaScript加载问题,针对文字图片加密,可以通过文字坐标解密方法进行文字解密操作,从而最终获取文字信息,常见的反爬虫机制及应对如下表所示。
  (4)数据预处理。由于企业画像涉及的数据维度较多,数据错综复杂,文本数据质量无法保证,因此需要进行数据预处理,经过数据验证(公司信息验证)、数据整理(公司信息整合)、数据清洗(公司信息过滤),最终整合成结构化数据入库,具体流程如图1所示。
  3企业画像
  基于自然语言处理实现企业级画像。自然语言处理(Nature Language Processing,NLP)是采用计算机方法来理解和使用人类语言的技术与思想,现阶段,自然语言的应用场景主要包括机器翻译、文本分类、信息抽取、语音识别、情感分析、主题分析、舆情检测和智能问答等。其中,企业画像主要会用到信息抽取、文本分类、舆情监测等算法对文本进行建模,这些算法的建模流程通常为:文本分词、去停用词、关键词提取、模型训练。
  (1)文本分词。针对中文文本分词,可以使用jieba分词器,该工具是一款开源的,使用较为广泛、分词效果较好的分词器。它基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型(Hidden Markov Model,隐马尔可夫模型),使用了Viterbi算法,并且jieba支持自定义专业词典和未登录词典。jieba分词器另外一个强大的功能是,它可以提供自定义词典的接口,用户可以根据自己的需要,将自定义的词典导入到jieba字典库,之后的分词可以根据用户自定义的词典进行分词。
  (2)去停用词。分好词后,根据具体的应用场景需要将文本中大量出现的语气助词、标点符号、连接词、量词等在文本模型训练前从文本中过滤掉,然而有些应用场景需要保留量词,所以并没有一个固定的停用词表来适用于所有场景,所有的停用词表需要根据实际情况人为输入。停用词列表
  (3)关键词提取。经过分词和去停用词之后的文本,还会存在大量的低频词汇或非核心词汇,这些词通常数据量较大,不仅会带来存储的浪费,而且也不利于文本模型的训练,所以通常在文本模型训练前,需要先从文本中提取出核心关键词,再对这些关键词进行模型训练。常用的关键词提取算法包括TF-IDF、LDA、LSI、TextRank等。例如TF-IDF(termfrequency-inverse document frequency,词频-逆向文件频率)是一种用于信息检索与文本挖掘的常用加权技术,TF-IDF是一种统计模型,用以评估一个词在一个文本中的重要程度,词的重要性会随着它在当前文本中出现的次数成正比增加,同时会随着它在整个语料库中出现的次数成反比下降,其中TF(Term-Frequency)是当前文本中的词频统计,IDF(InverseDocument Frequency)是逆向文档频率统计,具体算法公式如图3所示。
  (4)模型训练。关于文本训练的模型有很多,通常要根据不同的业务场景选择合适的模型训练,针对公司画像可能会涉及的场景包括信息抽取、文本分类、舆情监测等,可以用到的模型有word2vec,LSTM,TextRNN+Attention,BERT等,所有模型都会涉及词向量的概念(Word Embedding),它是由实数组成的固定维数的向量,每个词条对应一个词向量,通过模型训练(如图4所示)最终可以将词条映射到对应的词向量上,然后将词向量作为输入变量放到不同模型比如分类模型、计算相似度模型、聚类模型中进行最终模型的训练。
  (5)企业画像。通过网络爬虫获取到的结构化数据,经过数据清洗后可直接入库,包括公司名称、注册资本、注册城市、注册时间、财务报表、招聘人数、申请专利、员工人数等信息,并可作为企业基础信息,用以确定企业所处阶段、企业健康指数、企业标签等。非结构化的文本数据经过模型训练后转化成结构化数据再入库,如文本分类模型可以确定企业所属行业、企业最新舆情动态;关键词提取模型可以构建企业新闻词云,了解企业的最新动态和发展方向;文本相似度模型可以查询到具有相似属性的公司,实现企业问聚类进行群体分析;企业倾向性模型可以预测企业是否有购买某项产品或服务的可能性,从而促成精准营销;企业生命周期管理模型可以实时洞悉企业价值(历史价值、当前价值、潜在价值),从而挖掘出企业所有可能机会点;销售漏斗报告模型可以实时观察企业忠诚度以及流失度,从而调整企业营销策略;企业产品推荐模型可以通过计算企业用户销售行为,从而定制化的推荐高可能性购买产品。根据以上结构化数据和模型结果最终可以得到企业级画像。整体架构如图5所示。
  4结论
  由于市场上有关企业画像的方法论和系统不够普及,导致以B2B业务为主的公司很少像B2C公司一样对客户进行画像,从而进行精准营销,为此本文基于大数据与机器学习技术构建了动态企业画像系统,尽管设计的系统已经通过验证性实验具备一定的可行性,但以上都只是基于PC端做的相关研究,并没有实时收集海量数据以及大规模进行模型训练,因此还不能确定企业画像在海量数据上的表现,因此接下来会尝试搭建或租用阿里云、AWS、Azure云平台进行海量数据的验证。
其他文献
我国于2016年正式加入国际本科工程教育互认协议《华盛顿协议》,近年来各高校贯彻落实工程教育认证“学生中心、产出导向、持续改进”的理念,对促进我国工程教育类专业改革指
随着宁波进入深度老龄化社会,如何提升养老服务的质量,真正实现老有所依、老有所乐已成为当前社会的关键问题,本文在厘清宁波市养老现状和问题的基础上进行构建“互联网+”医
关键词:人工智能;法学教育;教育模式;变革  近年来,随着科学技术的飞速发展与社会的不断进步,人们已经步入了人工智能时代。人工智能可以说给社会诸多领域都带来了巨大影响,其中亦包括教育领域。法学教育是一项关乎社会公正与国计民生的教育,而在现代法学教育中处处都能够看到人工智能的影子。  一、人工智能的概念  人工智能亦称AI、智械、机器智能等,是指人造机器所表现出来的智能及通过计算机程序所呈现出的智能
关键词:毕奥.萨伐尔定律;磁感应强度;直角三角形载流线圈  一、緒论  载流线圈周围的磁场分布是大学物理中重要的知识点之一,而在大学物理中仅对直导线、圆环、螺线管等载流导体周围的磁场进行了介绍。在理论和实际应用中,由导线形成的其他形状的载流导体的磁场分布也非常重要,例如三角形载流导体的磁场。  很多学者在毕奥-萨伐尔定律的基础上,对三角形载流导体的磁场分布已进行了系列研究。邓卫娟和李秉宽利用场强叠
关键词:艺术专业;大学生;创新创业平台;构建  创新创业教育是高校大学生培养的热门话题,高等院校在育人活动中,需要启发学生培养创新思维,提升其创新创业能力,才能更好地符合当前社会发展对人才的要求,也是推动社会长远发展的主要动力,是提升整个民族创新能力的保证。艺术专业学生要提升自身的创作能力,必须具备创新意识,这也是艺术工作者和高校教育都必须关注的问题。经济社会的深入发展,当前高校艺术专业学生人数不
关键词:档案信息化;档案管理;管理体系;信息资源;意义  现如今,我国档案管理工作在新时期背景下发生了显著变化,呈现出档案数据资源海量增加、档案信息类型多元化等特点,外加计算机技术、数据库技术等技术的快速发展,传统档案管理工作方式、理念、制度等逐渐表现出诸多不适应之处,难以满足当前社会对档案管理工作的实际需求。在此背景下,档案管理工作創新发展势在必行。因此,对新时期的档案管理工作进行深度研究具有一
关键词:大数据;导弹武器系统;全寿命;管理模型  信息化建设已经进入大数据时代,大数据技术势必推动新军事革命,并逐渐向着更加广泛和深层次的发展。围绕大数据时代军队建设支撑国家安全和可持续发展的需要,抓紧当前的战略机遇期,全面建成军队大数据体系。基于此,本文将引入大数据技术,开展对导弹武器系统全寿命管理模型研究。  1结合大数据的导弹武器系统全寿命管理特点分析  1.1导弹武器系统全寿命管理意义  
城市轨道交通的安全、可靠的运行依靠准确、可靠、迅速的通信传输系统传递和交换各种信息.一般情况下,各站客流量及沿线列车的运行状况都可以根据通信系统传输给控制中心,由
城市轨道交通车地无线通信技术将列车、车站、控制中心停车场、车辆段连接成为完善的轨道交通通信网络,是列车和车站信息传输的骨干网络,在现代城市轨道交通运行中发挥着重要
计算机作为当今世界快速发展的技术,已经融入了人类生活的各方各面.从信息的角度看,人类产生的数据庞大而又复杂,面对这些数据,如果单纯凭借人类的计算能力来统计或使用数据