基于大数据的内容数据挖掘与应用

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:joshua5201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:大数据中的内容数据挖掘,通过内容挖掘技术解决垃圾检测、黄赌识别、标签提取、内容提取、文章分类、情感分析这一系列业务领域的内容数据分析。
  关键词:内容数据挖掘;内容挖掘与应用
  一、概述
  1.内容挖掘的定义
  Web上的信息量随着因特网的飞速发展以惊人的速度增长,面对Web上海量、分布、动态、异质、复杂、非结构化的丰富信息资源,用户如何从中查找、抽取自己想要的数据和有用信息,由此产生了Web挖掘技术。
  Web挖掘就是从大量的Web文档和Web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。Web信息的多样性决定了Web挖掘任务的多样性。Web挖掘可分为三类:Web内容挖掘、Web结构挖掘和Web应用挖掘。
  Web内容挖掘分为文本挖掘与多媒体挖掘。而文本挖掘,则是从Web文档的内容信息中抽取知识。是从大量Web数据中发现信息、抽取有用知识的过程。多媒体挖掘则是通过对多媒体的音频、视频、图片等要素的比对、识别、抽取实现有用知识的挖掘分析。Web内容挖掘是Web挖掘的一个重要方面,本文主要阐述的Web挖掘中的内容数据挖掘与应用。
  2.国内外研究现状
  Web内容挖掘和信息检索有较深的渊源,因此,许多技术都是源自信息检索领域。从信息检索角度研究这个问题,主要研究如何处理文本格式和超链接文档,这些数据是非结构化或者是半结构化的。数据以词组、短语、n-维词元、词包等形式表示,采用TFIDF(文档特征权值表示常用方法)和变量、机器学习和词组统计包括自然语言的统计等研究方法对文档进行分类、聚类,研究抽取词组在文档中出现的规律。Craven等研究了用关系模型表示文档内容,采用修改了的贝叶斯算法,给超文本链接分类,寻求Web页面关系,抽取规则。Crimmins研究了用短语、超级链接和信息元表示文档内容,采用自动和非自动学习的分类算法,对文档进行聚类和分层分类。Furnkranz和Joachims用超级链接信息表示文檔内容,采用规则学习算法PTFIDF,对超级链接文档进行分类。
  二是从数据库角度研究,主要处理半结构化的Web数据库,也就是超级链接文档。数据多采用带权图或者对象嵌入模型(Object Embedded  Model OEM),或者关系数据库表示,应用Proprietary算法或者经过修改了的关联规则挖掘算法,寻找出网站页面之间的内在联系。Goldman、Nestorov等人用OEM表示文档,采用Proprietary算法,分别在半结构化数据中,寻找标引字段和数据的层次结构。Zaiane等用关系数据库表示数据,采用面向对象的推理方法,寻找多层次数据库的构建策略,为文献标引提供决策依据。
  无论是从IR角度还是从数据库角度研究,都是为了研究如何实现文本分析(Text Analysis)、文本解释(Text Interpretation)和文本分类(Text Classification)等工作的自动化。从而提高网上搜索引擎的查准率和查全率。
  二、内容的数据挖掘与应用
  1.首先要了解用户要解决的问题
  内容的数据挖掘在不同行业的应用有其不同。在内容数据挖掘之前首先要了解所在行业对于内容数据挖掘的需求,用户希望通过数据挖掘要解决的问题是什么?是否是想通过对内容的分析与挖掘实现:
  1)垃圾检测:精准识别垃圾邮件、垃圾内容等低质量文本内容
  2)黄赌识别:准确定位文本中所含涉黄、涉赌等违规内容
  3)标签提取:高效提取文本核心词语以生成标签
  4)内容提取:对文本符合某种规则的特定内容进行提取
  5)文章分类:依据预设分类体系对文本进行自动归类
  6)情感分析:准确分析用户透过文本表达出的情感倾向
  2.非结构化文本数据的挖掘实现
  2.1基于关联规则的文本挖掘
  关联规则中最常用的是Apriori,其核心是基于两阶段频集思想的递推算法,该关联规则在分类上属于单维、单层、布尔关联规则,常用于事务性的挖掘规则中。
  2.2序列模式挖掘
  序列模式挖掘解释的关系跟关联模型相同,只不过把时间因素考虑在内,算法包括三类:
  类Apriori算法:典型代表GSP算法,SPADE算法;
  基于划分模式的生长算法:典型代表是FreeSpan和PrefixSpan算法;
  基于序列比较的算法:代表为Disc-all;
  整体来看PrefixSpan和Disc-all在算法效率和性能表现上会更好,同时,考虑到业务对时间上的约束条件,比如我们分析发现,用户的存 留周期只有1年,那么我们只想对1年内发生重复行为的用户进行针对性动作,1年就是我们的约束条件。这也是在做基于时间序列也需要考虑的因素。
  2.3文本聚类挖掘
  聚类分析是业务进入数据挖掘场景最基本的需求,通常的需求如,描述某类用户的基本特征,同时,这些特征可以作为进一步挖掘和分析的基本条件。聚类分析中最常用的算法是K-MEANS聚类和两步聚类。
  2.4文本规则提取
  所谓的文本规则提取,指的是把文本作为用户提取规则的一个变量,通常用决策树、SVM、SLRM来提取业务规则,比如要找到购买家电类的用户,他们对产品有哪些需求点,可以通过以下几种方式提取规则。
  2.5决策树
  决策树挖掘模式通常使用C 5.0、C&RT、CHAID、QUEST等,决策树模型的特点是以树状展现规则,并按照规则对目标的影响程度分支,非常利于业务理解和规则提取。   在文本挖掘中,充另一个挑战是文本的“语意”。由于文本在汉语中的丰富的色彩,对文本的感情属性的判断需要根据语境,挖掘融合了全套自然语言处理技术和机器学习技术,基础文字处理集成了文本分词、词性标注、句法分析、命名实体识别、文本标签提取等功能模块,基于此再结合机器学习算法,实现认知层次上的文本自动分类、涉黄涉政分析、垃圾评论识别等功能。
  3.非结构化文本数据挖掘的应用
  用户给出內容分析与挖掘的规则及要求,系统根据规则及要求对文本内容进行文本自动审核、垃圾评论检测、文本标签提取、文本自动归类、文本情感分析。
  3.1规则制定
  1)提供用户自行制定分析规则,规则包括:标签组合、关键词组合,标签组、关键词组。组合规则包括与、或、非。
  3.2文本自动审核
  1)文本中涉黄、涉堵、涉政、反动等违规方面进行审核,给出当前文本违规的严重系数。
  2)假设将每类违规类型系数定为1,将文本内容审核时给出文本内容符合哪类违规类别,给出违规系数。
  3)提供对文本的自动审查,用户给出一段文本内容后,自动对文本进行审核对。
  3.3垃圾评论检测
  1)提供对文本的内容是否为垃圾内容或低质量的文本内容的检测。
  2)给出文本是垃圾内容及低质量内容的评定系数。将评定系数高的数据进行剔除。
  3.4文本标签提取
  1)提供对文本内容标签的自动提取功能,将文本中核心词语进行提取生成文本重要标签。标签按重要性递减排序
  2)并将标签与规则进行比对,比对成功的进行标识。
  3.5特定规则内容提取
  用户进行自定义的提取规则的设定,系统可以根据用户的要求进行提取。符合某种规则的特定内容提供取某类型的库中。
  1)提取规则一:key=value格式,可以支持多种KEY=value的样式。
  2)提取规则二:符合手机号、身份证、MAC、IMEI、IMSI、邮件帐号规则。
  3)提取规则三:基于邮件正文、附件内容的模版提取。提取邮件姓名、电话、公司地址、公司电话、传真号、QQ号、公司网站、公司名称。
  4)提取规则四:符合自行设定规则的提取,如:APP名称、盗号规则等。
  3.6文本自动归类
  1)提供对文本内容进行分析,依据预设的分类体系对海量文本进行自动归类,并给出所属类型的置信度(如:社会资讯、健康、科技)。
  2)提供对文本内容进行分析,分析后将文本自动归类并给出所属类型的置信度(如:社会资讯、健康、科技)。
  3.7文本情感分析
  1)在论坛、邮件及网站中产生了大量的用户邮件、评论信息,如何在这些信息中提取出有价值的信息不是一件容易的事。
  2)通过对一段文本内容分析,发现其表达的是正面情绪还是负面情绪并显示两种情绪的占比。
  3)通过情感倾向的正面与负面的权重(0.2/0.8)及标签,可快速定位负面内容的发起者与传播者。
  参考文献
  [1]  认知计算与大数据分析【美:JudithS.Hurwitz MARCIA kaufman Adrian Bowles张鸿涛译】
其他文献
摘 要:随着新课改的不断深化,有效教学这一理念不断渗透到高中化学教学中,它不仅是发展学生化学思维的主要依据,还是促进学生可持续发展的重要动力,因此,本文笔者对有效教学展开研究。  关键词:高中化学;有效教学;课堂问题;实验教学;课堂小结  高中是学生思维发展的关键时期,也是学生全面掌握化学知识的重要阶段,由于教师在教学压力下,面对抽象化的化学知识,常常以直接灌输的方式展开教学活动,导致学生只是片面
期刊
摘 要:每个孩子都出自特定的家庭,到了上学的年龄都要学校接受正规的、统一的教育。学校教育与家庭教育的有机结合,优势互补,成为现教育發展的必然趋势。学校教育和家庭教育有各自的优势,如果建立在发挥双方优势的基础上,将能培养更加多元化的人才。由此可见,培养对社会有用的人才,必须在家庭和学校共同的环境下进行。  关键词:学校教育 家庭教育 优势  一、学校是家庭履行教育职能的“同盟军”。  1.家庭教育与
期刊
摘 要:新课改的推进,让越来越多的教师发现了传统教学的弊端,认识到了教学改革的必要性,开始围绕学生的特点来探寻教学的策略,想要帮助学生掌握学科知识,促进学生表现。初中数学教师在教学中培养学生的探索意识就是在此基础上提出的。  关键词:初中数学;教学;学生;探索意识  初中数学教师在教学中培养学生的探索意识,离不开增加教学的目的性、趣味性和探索性等特点。教师使用生活、问题、实践等教学手段,能够拓宽学
期刊
中国传统文化和传统美德的基本精神,中国传统文化的基础精神是能够反映民族特征的,传统观念和思想意识是具有民族特征的世界观和人生观,是中华民族自强不息、前仆后继、英勇顽强形成的精神支柱,是指导人们实践活动的基本精神。  传统文化讲究崇尚伦理道德,注重人文理性,强调和谐观念,倡导忧患意识等,学习和研究这些中国传统文化,进而继承,弘扬和发展中华民族的传统美德,对于构建和谐社会,加强国民素质,都有重要的意义
期刊
摘 要:审计学课程是现如今财会专业和财务管理专业当中的一个必修课程,但是在实际的教学过程当中对审计学课程的教学存在着一定的难度,因为相关知识的晦涩和枯燥等特点导致这项课程在教学的过程中很难合理有效的开展。所以本文主要分析将探究式学习方法应用在审计学课程教学当中的效果,同时将主要情况进行如下的论述。  关键词:探究式教学;审计学课程;教学效果  引言  在现如今的会计学专业和财务管理专业当中都不可避
期刊
摘 要:与传统的观念不同的是教师认为抽认卡不仅应用于低龄的学生,也同样适用于初中生,可以让初中生感受到英语知识学习的趣味性。初中英语教师在教学的过程中,既要深入研究抽认卡的运用特点,又要能够充分地将抽认卡的特点与教学内容进行充分融合,与学生的學习兴趣进行完美贴合,从而让学生掌握新型的学习方式,提升整体的初中英语教学有效性。  关键词:抽认卡;初中英语;英语教学;教学策略  在农村英语教学的过程中,
期刊
摘 要:众所周知,高中学生的学习压力相对比较大,这也使得许多学校都忽视了对学生的体育教学,这不仅不利于学生的身心发展,而且也不利于学生的有效学习。因此,高中教育不仅应当重视体育教学,而且还要注重提高教学的有效性。本文即是从激发学生兴趣、教学锻炼结合以及构建师生和谐关系三个角度对高中体育教学有效性进行论述,供大家参考。  关键词:高中体育;课堂有效性;教学策略  随着新课程教育改革的不断推进,高中生
期刊
摘 要:在初中英语的课堂教学设计中,导入环节的设计举足轻重,它是一节课是否有效的重要影响因素,同时也是调动学生学习兴趣的一个重要的阶段。因此,在初中英语课堂教学中教师要重视课堂的导入环节,站在学生的立场上设计和安排导入环节,进而在最短的时间内吸引学生的注意力,从而为之后的课堂学习奠定基础。因此,本文主要介绍的就是在初中英语课堂中教师运用有效的导入方式的策略,主要以背景知识、音乐情境以及生活情境的导
期刊
摘 要:新课标重点强调了立德树人,传承中华优秀传统文化和培养学生美术学科核心素养,进一步强调了高中美术教学的重要地位。我们选择以中国画教学为研究和发展素材,带领学生巧学中国画,在丰富了高中美术课程资源的同时,能够较好地满足了学生艺术素养个性化发展的需求。  关键词:高一;中国画;美术教学;策略  研究调查发现中小学教中国画的美术老师们呈现科班少、画画、看展少的现象,且中国画教学的硬件条件,学习用品
期刊
摘 要:核心素养是指学生应当具备的,能够适应社会发展的必备品格的关键能力,核心素养的培养对每一个莘莘学子都是至关重要的,尤其是对于刚刚接触物理这个新的科目的初中生而言,正是培养物理核心素养的关键时期。因此,探究初中物理核心素养,并充分把握初中物理核心素养对物理教学的影响,以便提高物理教学质量,提升学生综合能力。  关键词:初中物理;核心素养;物理教学;影响  随着社会的发展,素质教育的逐渐深入,在
期刊