论文部分内容阅读
摘 要:大数据中的内容数据挖掘,通过内容挖掘技术解决垃圾检测、黄赌识别、标签提取、内容提取、文章分类、情感分析这一系列业务领域的内容数据分析。
关键词:内容数据挖掘;内容挖掘与应用
一、概述
1.内容挖掘的定义
Web上的信息量随着因特网的飞速发展以惊人的速度增长,面对Web上海量、分布、动态、异质、复杂、非结构化的丰富信息资源,用户如何从中查找、抽取自己想要的数据和有用信息,由此产生了Web挖掘技术。
Web挖掘就是从大量的Web文档和Web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。Web信息的多样性决定了Web挖掘任务的多样性。Web挖掘可分为三类:Web内容挖掘、Web结构挖掘和Web应用挖掘。
Web内容挖掘分为文本挖掘与多媒体挖掘。而文本挖掘,则是从Web文档的内容信息中抽取知识。是从大量Web数据中发现信息、抽取有用知识的过程。多媒体挖掘则是通过对多媒体的音频、视频、图片等要素的比对、识别、抽取实现有用知识的挖掘分析。Web内容挖掘是Web挖掘的一个重要方面,本文主要阐述的Web挖掘中的内容数据挖掘与应用。
2.国内外研究现状
Web内容挖掘和信息检索有较深的渊源,因此,许多技术都是源自信息检索领域。从信息检索角度研究这个问题,主要研究如何处理文本格式和超链接文档,这些数据是非结构化或者是半结构化的。数据以词组、短语、n-维词元、词包等形式表示,采用TFIDF(文档特征权值表示常用方法)和变量、机器学习和词组统计包括自然语言的统计等研究方法对文档进行分类、聚类,研究抽取词组在文档中出现的规律。Craven等研究了用关系模型表示文档内容,采用修改了的贝叶斯算法,给超文本链接分类,寻求Web页面关系,抽取规则。Crimmins研究了用短语、超级链接和信息元表示文档内容,采用自动和非自动学习的分类算法,对文档进行聚类和分层分类。Furnkranz和Joachims用超级链接信息表示文檔内容,采用规则学习算法PTFIDF,对超级链接文档进行分类。
二是从数据库角度研究,主要处理半结构化的Web数据库,也就是超级链接文档。数据多采用带权图或者对象嵌入模型(Object Embedded Model OEM),或者关系数据库表示,应用Proprietary算法或者经过修改了的关联规则挖掘算法,寻找出网站页面之间的内在联系。Goldman、Nestorov等人用OEM表示文档,采用Proprietary算法,分别在半结构化数据中,寻找标引字段和数据的层次结构。Zaiane等用关系数据库表示数据,采用面向对象的推理方法,寻找多层次数据库的构建策略,为文献标引提供决策依据。
无论是从IR角度还是从数据库角度研究,都是为了研究如何实现文本分析(Text Analysis)、文本解释(Text Interpretation)和文本分类(Text Classification)等工作的自动化。从而提高网上搜索引擎的查准率和查全率。
二、内容的数据挖掘与应用
1.首先要了解用户要解决的问题
内容的数据挖掘在不同行业的应用有其不同。在内容数据挖掘之前首先要了解所在行业对于内容数据挖掘的需求,用户希望通过数据挖掘要解决的问题是什么?是否是想通过对内容的分析与挖掘实现:
1)垃圾检测:精准识别垃圾邮件、垃圾内容等低质量文本内容
2)黄赌识别:准确定位文本中所含涉黄、涉赌等违规内容
3)标签提取:高效提取文本核心词语以生成标签
4)内容提取:对文本符合某种规则的特定内容进行提取
5)文章分类:依据预设分类体系对文本进行自动归类
6)情感分析:准确分析用户透过文本表达出的情感倾向
2.非结构化文本数据的挖掘实现
2.1基于关联规则的文本挖掘
关联规则中最常用的是Apriori,其核心是基于两阶段频集思想的递推算法,该关联规则在分类上属于单维、单层、布尔关联规则,常用于事务性的挖掘规则中。
2.2序列模式挖掘
序列模式挖掘解释的关系跟关联模型相同,只不过把时间因素考虑在内,算法包括三类:
类Apriori算法:典型代表GSP算法,SPADE算法;
基于划分模式的生长算法:典型代表是FreeSpan和PrefixSpan算法;
基于序列比较的算法:代表为Disc-all;
整体来看PrefixSpan和Disc-all在算法效率和性能表现上会更好,同时,考虑到业务对时间上的约束条件,比如我们分析发现,用户的存 留周期只有1年,那么我们只想对1年内发生重复行为的用户进行针对性动作,1年就是我们的约束条件。这也是在做基于时间序列也需要考虑的因素。
2.3文本聚类挖掘
聚类分析是业务进入数据挖掘场景最基本的需求,通常的需求如,描述某类用户的基本特征,同时,这些特征可以作为进一步挖掘和分析的基本条件。聚类分析中最常用的算法是K-MEANS聚类和两步聚类。
2.4文本规则提取
所谓的文本规则提取,指的是把文本作为用户提取规则的一个变量,通常用决策树、SVM、SLRM来提取业务规则,比如要找到购买家电类的用户,他们对产品有哪些需求点,可以通过以下几种方式提取规则。
2.5决策树
决策树挖掘模式通常使用C 5.0、C&RT、CHAID、QUEST等,决策树模型的特点是以树状展现规则,并按照规则对目标的影响程度分支,非常利于业务理解和规则提取。 在文本挖掘中,充另一个挑战是文本的“语意”。由于文本在汉语中的丰富的色彩,对文本的感情属性的判断需要根据语境,挖掘融合了全套自然语言处理技术和机器学习技术,基础文字处理集成了文本分词、词性标注、句法分析、命名实体识别、文本标签提取等功能模块,基于此再结合机器学习算法,实现认知层次上的文本自动分类、涉黄涉政分析、垃圾评论识别等功能。
3.非结构化文本数据挖掘的应用
用户给出內容分析与挖掘的规则及要求,系统根据规则及要求对文本内容进行文本自动审核、垃圾评论检测、文本标签提取、文本自动归类、文本情感分析。
3.1规则制定
1)提供用户自行制定分析规则,规则包括:标签组合、关键词组合,标签组、关键词组。组合规则包括与、或、非。
3.2文本自动审核
1)文本中涉黄、涉堵、涉政、反动等违规方面进行审核,给出当前文本违规的严重系数。
2)假设将每类违规类型系数定为1,将文本内容审核时给出文本内容符合哪类违规类别,给出违规系数。
3)提供对文本的自动审查,用户给出一段文本内容后,自动对文本进行审核对。
3.3垃圾评论检测
1)提供对文本的内容是否为垃圾内容或低质量的文本内容的检测。
2)给出文本是垃圾内容及低质量内容的评定系数。将评定系数高的数据进行剔除。
3.4文本标签提取
1)提供对文本内容标签的自动提取功能,将文本中核心词语进行提取生成文本重要标签。标签按重要性递减排序
2)并将标签与规则进行比对,比对成功的进行标识。
3.5特定规则内容提取
用户进行自定义的提取规则的设定,系统可以根据用户的要求进行提取。符合某种规则的特定内容提供取某类型的库中。
1)提取规则一:key=value格式,可以支持多种KEY=value的样式。
2)提取规则二:符合手机号、身份证、MAC、IMEI、IMSI、邮件帐号规则。
3)提取规则三:基于邮件正文、附件内容的模版提取。提取邮件姓名、电话、公司地址、公司电话、传真号、QQ号、公司网站、公司名称。
4)提取规则四:符合自行设定规则的提取,如:APP名称、盗号规则等。
3.6文本自动归类
1)提供对文本内容进行分析,依据预设的分类体系对海量文本进行自动归类,并给出所属类型的置信度(如:社会资讯、健康、科技)。
2)提供对文本内容进行分析,分析后将文本自动归类并给出所属类型的置信度(如:社会资讯、健康、科技)。
3.7文本情感分析
1)在论坛、邮件及网站中产生了大量的用户邮件、评论信息,如何在这些信息中提取出有价值的信息不是一件容易的事。
2)通过对一段文本内容分析,发现其表达的是正面情绪还是负面情绪并显示两种情绪的占比。
3)通过情感倾向的正面与负面的权重(0.2/0.8)及标签,可快速定位负面内容的发起者与传播者。
参考文献
[1] 认知计算与大数据分析【美:JudithS.Hurwitz MARCIA kaufman Adrian Bowles张鸿涛译】
关键词:内容数据挖掘;内容挖掘与应用
一、概述
1.内容挖掘的定义
Web上的信息量随着因特网的飞速发展以惊人的速度增长,面对Web上海量、分布、动态、异质、复杂、非结构化的丰富信息资源,用户如何从中查找、抽取自己想要的数据和有用信息,由此产生了Web挖掘技术。
Web挖掘就是从大量的Web文档和Web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。Web信息的多样性决定了Web挖掘任务的多样性。Web挖掘可分为三类:Web内容挖掘、Web结构挖掘和Web应用挖掘。
Web内容挖掘分为文本挖掘与多媒体挖掘。而文本挖掘,则是从Web文档的内容信息中抽取知识。是从大量Web数据中发现信息、抽取有用知识的过程。多媒体挖掘则是通过对多媒体的音频、视频、图片等要素的比对、识别、抽取实现有用知识的挖掘分析。Web内容挖掘是Web挖掘的一个重要方面,本文主要阐述的Web挖掘中的内容数据挖掘与应用。
2.国内外研究现状
Web内容挖掘和信息检索有较深的渊源,因此,许多技术都是源自信息检索领域。从信息检索角度研究这个问题,主要研究如何处理文本格式和超链接文档,这些数据是非结构化或者是半结构化的。数据以词组、短语、n-维词元、词包等形式表示,采用TFIDF(文档特征权值表示常用方法)和变量、机器学习和词组统计包括自然语言的统计等研究方法对文档进行分类、聚类,研究抽取词组在文档中出现的规律。Craven等研究了用关系模型表示文档内容,采用修改了的贝叶斯算法,给超文本链接分类,寻求Web页面关系,抽取规则。Crimmins研究了用短语、超级链接和信息元表示文档内容,采用自动和非自动学习的分类算法,对文档进行聚类和分层分类。Furnkranz和Joachims用超级链接信息表示文檔内容,采用规则学习算法PTFIDF,对超级链接文档进行分类。
二是从数据库角度研究,主要处理半结构化的Web数据库,也就是超级链接文档。数据多采用带权图或者对象嵌入模型(Object Embedded Model OEM),或者关系数据库表示,应用Proprietary算法或者经过修改了的关联规则挖掘算法,寻找出网站页面之间的内在联系。Goldman、Nestorov等人用OEM表示文档,采用Proprietary算法,分别在半结构化数据中,寻找标引字段和数据的层次结构。Zaiane等用关系数据库表示数据,采用面向对象的推理方法,寻找多层次数据库的构建策略,为文献标引提供决策依据。
无论是从IR角度还是从数据库角度研究,都是为了研究如何实现文本分析(Text Analysis)、文本解释(Text Interpretation)和文本分类(Text Classification)等工作的自动化。从而提高网上搜索引擎的查准率和查全率。
二、内容的数据挖掘与应用
1.首先要了解用户要解决的问题
内容的数据挖掘在不同行业的应用有其不同。在内容数据挖掘之前首先要了解所在行业对于内容数据挖掘的需求,用户希望通过数据挖掘要解决的问题是什么?是否是想通过对内容的分析与挖掘实现:
1)垃圾检测:精准识别垃圾邮件、垃圾内容等低质量文本内容
2)黄赌识别:准确定位文本中所含涉黄、涉赌等违规内容
3)标签提取:高效提取文本核心词语以生成标签
4)内容提取:对文本符合某种规则的特定内容进行提取
5)文章分类:依据预设分类体系对文本进行自动归类
6)情感分析:准确分析用户透过文本表达出的情感倾向
2.非结构化文本数据的挖掘实现
2.1基于关联规则的文本挖掘
关联规则中最常用的是Apriori,其核心是基于两阶段频集思想的递推算法,该关联规则在分类上属于单维、单层、布尔关联规则,常用于事务性的挖掘规则中。
2.2序列模式挖掘
序列模式挖掘解释的关系跟关联模型相同,只不过把时间因素考虑在内,算法包括三类:
类Apriori算法:典型代表GSP算法,SPADE算法;
基于划分模式的生长算法:典型代表是FreeSpan和PrefixSpan算法;
基于序列比较的算法:代表为Disc-all;
整体来看PrefixSpan和Disc-all在算法效率和性能表现上会更好,同时,考虑到业务对时间上的约束条件,比如我们分析发现,用户的存 留周期只有1年,那么我们只想对1年内发生重复行为的用户进行针对性动作,1年就是我们的约束条件。这也是在做基于时间序列也需要考虑的因素。
2.3文本聚类挖掘
聚类分析是业务进入数据挖掘场景最基本的需求,通常的需求如,描述某类用户的基本特征,同时,这些特征可以作为进一步挖掘和分析的基本条件。聚类分析中最常用的算法是K-MEANS聚类和两步聚类。
2.4文本规则提取
所谓的文本规则提取,指的是把文本作为用户提取规则的一个变量,通常用决策树、SVM、SLRM来提取业务规则,比如要找到购买家电类的用户,他们对产品有哪些需求点,可以通过以下几种方式提取规则。
2.5决策树
决策树挖掘模式通常使用C 5.0、C&RT、CHAID、QUEST等,决策树模型的特点是以树状展现规则,并按照规则对目标的影响程度分支,非常利于业务理解和规则提取。 在文本挖掘中,充另一个挑战是文本的“语意”。由于文本在汉语中的丰富的色彩,对文本的感情属性的判断需要根据语境,挖掘融合了全套自然语言处理技术和机器学习技术,基础文字处理集成了文本分词、词性标注、句法分析、命名实体识别、文本标签提取等功能模块,基于此再结合机器学习算法,实现认知层次上的文本自动分类、涉黄涉政分析、垃圾评论识别等功能。
3.非结构化文本数据挖掘的应用
用户给出內容分析与挖掘的规则及要求,系统根据规则及要求对文本内容进行文本自动审核、垃圾评论检测、文本标签提取、文本自动归类、文本情感分析。
3.1规则制定
1)提供用户自行制定分析规则,规则包括:标签组合、关键词组合,标签组、关键词组。组合规则包括与、或、非。
3.2文本自动审核
1)文本中涉黄、涉堵、涉政、反动等违规方面进行审核,给出当前文本违规的严重系数。
2)假设将每类违规类型系数定为1,将文本内容审核时给出文本内容符合哪类违规类别,给出违规系数。
3)提供对文本的自动审查,用户给出一段文本内容后,自动对文本进行审核对。
3.3垃圾评论检测
1)提供对文本的内容是否为垃圾内容或低质量的文本内容的检测。
2)给出文本是垃圾内容及低质量内容的评定系数。将评定系数高的数据进行剔除。
3.4文本标签提取
1)提供对文本内容标签的自动提取功能,将文本中核心词语进行提取生成文本重要标签。标签按重要性递减排序
2)并将标签与规则进行比对,比对成功的进行标识。
3.5特定规则内容提取
用户进行自定义的提取规则的设定,系统可以根据用户的要求进行提取。符合某种规则的特定内容提供取某类型的库中。
1)提取规则一:key=value格式,可以支持多种KEY=value的样式。
2)提取规则二:符合手机号、身份证、MAC、IMEI、IMSI、邮件帐号规则。
3)提取规则三:基于邮件正文、附件内容的模版提取。提取邮件姓名、电话、公司地址、公司电话、传真号、QQ号、公司网站、公司名称。
4)提取规则四:符合自行设定规则的提取,如:APP名称、盗号规则等。
3.6文本自动归类
1)提供对文本内容进行分析,依据预设的分类体系对海量文本进行自动归类,并给出所属类型的置信度(如:社会资讯、健康、科技)。
2)提供对文本内容进行分析,分析后将文本自动归类并给出所属类型的置信度(如:社会资讯、健康、科技)。
3.7文本情感分析
1)在论坛、邮件及网站中产生了大量的用户邮件、评论信息,如何在这些信息中提取出有价值的信息不是一件容易的事。
2)通过对一段文本内容分析,发现其表达的是正面情绪还是负面情绪并显示两种情绪的占比。
3)通过情感倾向的正面与负面的权重(0.2/0.8)及标签,可快速定位负面内容的发起者与传播者。
参考文献
[1] 认知计算与大数据分析【美:JudithS.Hurwitz MARCIA kaufman Adrian Bowles张鸿涛译】