基于大数据的中文文本数据分析研究

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:wgp121554715
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:目前大数据技术已经被广泛应用到各行各业的文本数据分析领域。Python作为大数据处理和分析的首选编程语言,尤其在中文文本的识别、分析、处理方面具备绝对优势。文章以深圳国海创新资本数据匹配项目为实际案例,介绍大数据技术在金融领域中的中文文本数据分析应用。整个数据分析匹配过程包括数据预处理、列表数据元素匹配、输出匹配结果三个步骤。研究成果为大数据在金融行业的广泛应用提供了具体的技术方法和研究思路。
  关键词:大数据;中文文本;数据分析
  1 引言
  近年来,随着全球数字化信息数据量呈爆发式增长,大数据已经渗透到各行各业,相应诞生的大数据技术也迅猛发展,也被人们用来解决各种实际问题。Python这门编程语言异军突起,目前已经成为大数据处理和分析的首选编程语言。原因有以下几个:第一、Python是一种开源的解释型脚本语言、简单易学。第二,和C++、Java一样,Python也是一种面向对象编程语言,具备封装、继承、多态三大特性。第三,Python的跨平台性良好、可扩展性强、代码重用性高。第四、Python为我们提供了丰富的第三方库、应用广泛。Python不仅仅可以用来做系统编程、图形处理、GUI编程,而且目前一些非常火爆的概念比如网络爬虫、人工智能、大数据、云计算等都将Python视为首选语言。另外,Python在中文文本的识别、分析、处理方面相比较于其它编程语言具备绝对优势。所以,目前政府机构使用的网络舆情监控系统、金融领域的量化投资分析都使用到Python。
  本文以深圳国海创新资本数据匹配项目为实际案例,演示如何利用大数据技术解决目前金融领域中相关中文文本数据分析问题。
  2 问题描述
  2.1 项目需求
  深圳国海创新资本有限公司给我们提供了大量的excel文件,每个文件里有数千条数据。每条数据由4列信息(代码、名称、发行对象、股东信息)组成。每条数据中发行对象中有若干成员(>=1)、股东信息中有若干成员(>=1)。发行对象中若干成员(>=1)只要出现在股东信息中,该公司认为该条数据发行对象与股东信息之间存在关联性。否则,则不存在关联性。该公司要求我们准确标记出每条数据发行对象和股东信息之间是否存在关联性。存在,则关联性标注为1。不存在,则关联性标注为0。
  所提供的excel表格数据内容如图1所示。其中第3条数据发行对象中的成员北京盈谷信晔投资有限公司出现在了该条数据对应的股东名称当中,则认为该条数据发行对象和股东名称之间存在关联性,需要将关联性标记结果为1。其中第5条数据发行对象中每一个成员都没有出现在第对应的股东名称当中,则该条数据的关联性匹配结果需要标记为0。
  2.2 问题分析
  显然,这是一个中文字符串数据处理问题。其中涉及到中文字符串的预处理、匹配、输出结果等操作。我们无法通过Excel自带的公式来计算出每条数据的关联性匹配结果。如果采用人工的方法进行手动标注,不仅仅费时费力,而且准确性得不到保证。所以需要我们借助大数据技术通过编写算法来解决。我们如果选择C++、Java等编程语言,它们处理中文字符串困难,相关API接口函数都得自己写,代码量大、处理效果不佳。而Python在处理中文字符串方面拥有绝对优势,是解决该问题的首选。
  3 数据处理和分析
  整个数据处理和分析过程包含三个步骤,分别是数据预处理、列表数据元素匹配、输出匹配结果。我们选择使用Python中常见的数据结构——列表来存储数据。整个数据处理和分析流程图如图2所示。
  3.1 数据预处理
  首先,将Excel表格数据中的发行对象信息和股东名称信息这两列复制出来,存放到txt文本文件内。去除文本数据中的顿号,并将顿号替换为字母a和b。这样做是为了方便我们后面编写程序对每条数据进行分割切片。然后编写程序将每条数据中的发行对象成员和股东名称成员依次添加到对应的列表中。具体程序实现如图3所示。
  3.2 列表数据元素匹配
  该步骤为解决该项目的核心算法。简单来说,就是将发行对象列表中的每个元素和股东名称列表中的每个元素逐一匹配。一旦有一个元素匹配成功,则该条数据关联性匹配结果置为1,否则为0。具体程序实现如图4所示。
  3.3 输出匹配结果
  全部数据关联性匹配结束后,我们将关联性匹配结果列表里的数据输出到Exce表格关联性列中,如图5所示,就完成了整个项目所有内容。
  图5 输出匹配结果
  4结论
  我们选择Python作为开发语言,利用大数据处理和分析技术解决了深圳国海创新资本有限公司中文文本数据匹配难题,最终得到的关联性匹配结果准确率达到100%。将大数据技术应用到金融领域,不仅仅可以为从业者或公司解决数据分析或处理方面的难题,而且可以大大的提高工作效率,节省时间成本。本项目中編写的程序稍作修改,还可以更深入做中英文字符串查找、匹配、归类、提取等操作,可以用来解决金融领域所遇到了类似问题。
  参考文献:
  [1] 谌志群,张国煊.文本挖掘与中文文本挖掘模型研究[J].情報科學,2007,25(7):1046-1051.
  [2] 袁海,陈康,陶彩霞,等.基于中文文本的可视化技术研究[J].电信科学,2014,30(4):114-121.
  [3] 谷俊,王昊.基于领域中文文本的术语抽取方法研究[J].数据分析与知识发现,2011,27(4):29-34.
  [4] 黄冬,何睿.“大数据”认知的语义网与情感倾向分析[J].中国文化产业评论,2015(2):335-347
  [5] 季培培,鄢小燕,岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010,54(16):124-129.
  [6] 康书生,曹荣.互联网大数据技术在融资领域的应用研究[J].金融理论与实践,2014,1:1-08.
  [7] 蔡庆丰,郭春松,陈诣之.大数据思维在金融学研究中的运用[J].经济学动态,2015,3:104-114.
  [8] Liu B,Zhou X,Wang Y,et al.Data processing and analysis in real‐world traditional Chinese medicine clinical data:challenges and approaches[J].Statistics in medicine,2012,31(7):653-660.
  [9] Syeda K N,Shirazi S N,Naqvi S A A,et al.Big Data and Natural Language Processing for Analysing Railway Safety:Analysis of Railway Incident Reports[M]//Innovative Applications of Big Data in the Railway Industry.IGI Global,2018:240-267.
  作者简介:
  汪洋(1991.09——)男,汉族,四川城市职业学院 汽车与信息工程学院 四川省成都市 助教 硕士 主要 研究领域大数据、人工智能等。
  基金项目:
  本论文需挂四川城市职业学院校级课题,课题名称《基于大数据的中文文本情感分析研究——以电商平台热销手机用户评论为例》,课题编号CS19KYYB10)。
其他文献
摘 要:近年来,竞争日益激烈的市场给企业带来不小的压力和挑战,既给企业党建带来挑战,也给公司治理带来挑战。党建工作与公司治理是企业发展的两个重要方面,当党建与公司治理融合时可以得到加倍的效果,推动企业长远的发展。本文阐述了融合的意义,对党建和公司治理融合的可行性进行分析,进而叙述了如何展开党建与公司治理的融合。  关键词:企业党建;公司治理;融合  随着经济的发展,企业面临的挑战也越来越严峻。企业
期刊
摘 要:现在大数据相关的技术已经相对发展开始完善了起来,但是具体应用的过程中可能会存在一些其他方面的问题,文章就此进行分析。  关键词:图书情报;图书领域;大数据技术  1、前言  图书情报的领域当中信息的获得至关重要,大数据技术的应用给相关信息的获取带来了很大的便利,因而文章分析了图书情报的领域当中如何应用大数据技术来获得相应信息。  2、图书情报领域中大数据应用情况的分析  在信息技术快速发展
期刊
摘 要:随着网络技术的发展和各类基于虚拟空间的新媒体不断产生,报纸新闻采编的方式也不可避免地需要进行一定的变化。但是,如何在最短的时间内以最有效的方式实现变革以维护报纸的市场地位,成为了报纸新闻编辑工作者们需要考虑的问题。基于这一现实状况,本文将对处于数字化时代的报纸编辑工作的一些特点进行简要的分析,并以此提出一些较为有效的变革措施作为参考。  关键词:数字化时代;报纸;变革;策略  在当下的数字
期刊
摘 要:安全稳定的供配电系统是保证广播电视机房正常运营的重要基础,因此工作人员必须做好系统安全防护工作。基于现代科技与理念革新传统安全技术,本文主要分析广播电视机房供配电系统出现的安全问题,并基于此提出降低安全风险的措施,希望可以为保证供配电系统稳定运行、降低经济损失提供参考。  关键词:广播电视机房;供配电系统;稳定性;安全性  前言  安全可靠的供配电系统极大程度上可以避免广播电视机房出现核心
期刊
摘 要:基于新课程改革的背景下教师要做的就是全面迎合新课改要求,因材施教,注重转变教学方式,针对实际存在的问题寻找最合适的对策,将学生的求知欲和探索欲全面地激发出来,这样才能使其受到启发和感染从而自主学习。这样不仅可以丰富知识的积累,同时也能不断提升自身的学习能力和数学素养。本文将主要探讨新课程下小学数学教学中自主学习的策略。  关键词:新课程;小学数学;自主学习;策略  小学是良好习惯养成的一个
期刊
摘 要:小学是我国教育的初始阶段,是整个教育体系的重要奠基阶段。语文教学是小学阶段最重要的科目之一,其重点教学任务就是识字教学,对于学生的学习生涯有着重要意义。趣味识字教学法是新时期我国小学语文教学中重要的识字教学方式之一,对于识字教学开展的效率有着巨大的提升作用。本文通过对趣味识字教学法的优势进行分析,提出其应用的方案。  关键词:趣味识字教学法;小学语文教学;应用  小学阶段语文教学最重要的学
期刊
摘 要:阅读教学在语文课堂教学中占有非常重要的地位,它是学生提高语文水平,达到更好的教学目标必不可少的教学环节。在新课程的改革环境下,阅读教学对话模式作为一种创新的理念,为提高课堂阅读教学质量提供新途径。本文以高一语文教学为例,通过分析阅读教学对话模式的特点,为如何更好地在阅读教学中开展对话模式提供建议。  关键词:高一语文;阅读教学;对话模式;特点解析;实践策略  引言:  目前已有不少学者对如
期刊
摘 要:在经济全球化的背景下,各国之间的贸易联系越来越紧密。我国也从最早的闭关锁国逐步成为一个贸易强国。而近年来“一带一路”战略的推行与实施在给我国外贸带来更多机遇的同时也对其提出了更高的要求。高校国际贸易专业承担着为我国培养贸易人才的使命和责任,传统的教学方式已然不能适应新时代的发展需求,并且逐渐地暴露出不少问题。对此,在“一带一路”战略背景下,高校对国际贸易专业的课程进行改革是非常必要的。而作
期刊
摘 要:我省在有关政策中明确指出要提高对小学生书法教育的重视程度。其不仅有利于提升学生的审美能力,其还可以大大提升小学生的文学素养,帮助他们对自身的写作进行训练。除此之外,通过对小学生进行书法教学,还可以对学生的情操进行培养,让他们产生对祖国文字的热爱,同时还可以加深他们对于我国优秀文化的认知和理解。正是因为书法在语文教学中有着诸多优势和益处,所以教师一定要提高对小学生进行书法教育的重视程度,不仅
期刊
摘 要:21世纪以来,数字化音乐教学系统越来越多地应用于高师音乐教育领域中,并不断得到完善与发展,高校视唱练耳教学是否能适应飞速发展的数字化音乐环境已成为衡量教学效率与教学质量的重要指标之一。本文针对高校视唱练耳教学将如何适应数字化模拟环境提出了自己的看法和建议。  关键词:数字化模拟;视听练耳;教学改革  随着高科技的飞速发展,数字化音乐教学系统不断得到完善和优化,全国各高校的音乐教育工作者对数
期刊