论文部分内容阅读
摘 要:迁移学习是研究如何利用大量的源领域标记数据,帮助少量标记甚至无标记的相关领域来解决特征稀疏问题的一种方法。针对迁移学习的研究大多只是从特征项表层对数据进行分析并没有考虑到源领域与目标领域之间的语义相关性问题,提出一种基于潜在语义分析的迁移学习方法。通过实验表明,本文算法可以较大提高分类器的精确度。
关键词:迁移学习;机器学习;潜在语义分析;语义相关
1 潜在语义分析方法(LSA)
潜在语义分析是一种将文本信息组织成空间语义结构的新模型,其基本思想是假设文本中的特征项与特征项之间存在某种联系,通过对大量的文本集进行统计分析,从中提取出特征项的上下文使用含义。
潜在语义分析的基本过程是:首先构造典型特征项—文本矩阵M,然后应用奇异值分解技术,把特征项汇和文本从高维空间降到了低维潜在语义空间。最后得到一个新的矩阵M’。潜在语义分析只取前k个最大的奇异值,而将剩余的值设为零。
2 基于潜在语义分析方法的迁移学习
2.1 数据的矩阵表示
潜在语义分析出发点是文本中的特征项与特征项之间存在某种联系,采用统计计算的方法,对大量的文本进行分析来寻找这种潜在的语义结构。在迁移学习语义分析的实现方法中文本矩阵的元素值并不仅仅是词频信息以及对单个文本的贡献度,它还体现着特征项在文本集中区别、分辨类标签的能力。因此对特征项权重的计算方法包括文本贡献权重和类标签贡献权重两部分。最后将两个权重相乘,得到最终特征项权重。
2.2 建立源领域与目标领域之间的桥梁
由于两个领域间的相似性,可能存在一个低维的潜在语义空间,成为连接源领域和目标领域之间的桥梁,从而帮助完成源领域到目标领域的分类方法的迁移。
本文采用潜在语义分析方法挖掘源领域与目标领域中这一共同的低维潜在语义空间。使用奇异值分解技术,将源领域与目标领域的高维数据特征表示,映射到低维潜在语义空间中。
2.3 源领域到目标领域特征项的迁移
通过建立的低维潜在语义空间可得到文本和特征项的k维特征表示。但是在这个潜在空间中,源领域数据与目标领域数据拥有共同的特征表示,这有利于计算、分析有用的特征项,进而实现源领域中有用特征项到目标领域的迁移。从源领域筛选有用特征项主要分两步完成。首先要消除同义词“噪音”影响,然后从源领域中查找有用特征项。通过两步矩阵调整,即可得到目标领域数据的新的特征表示。
2.4 算法描述(Tr_LSA)
输入:两个训练数据集Ta和Tb,一个未标记的测试数据集S,一个传统的分类器。
输出:测试数据集S的标签
(1)对训练数据做去停用词、词干化等处理,得到特征项-文本矩阵M。(2)对矩阵M进行奇异值分解,将M中特征项与文本映射到低维潜在语义空间,建立联系Ta与Tb之间的桥梁。(3)去除“噪音”,从Ta中找出Tb中特征项的同义词,调整矩阵M结构;根据调整后的矩阵M,从Ta中找出迁移词,再对矩阵M进行调整。(4)分析调整后的矩阵M,得到目标领域数据新的特征表示,利用传统分类器,在训练数据集中得到一个最终分类器,对测试数据集S进行分类。
由于Tr_LSA算法对特征项和文本的处理都是在低维空间中计算的,所以在一定程度上提高了算法的时间效率。
3 实验结果与分析
3.1 数据集
本文使用20 newsgroups数据集,采用层次化的组织方式,包含7个顶级类别、20个子类别,并将其分成5组数据集。
3.2 对比算法
为了验证基于潜在语义分析的迁移学习方法的有效性,选取了传统文本分类器SVM和NB做对比,并使用TrAdaBoost算法与本文方法作对比。表1展示了传统分类器和迁移学习算法在不同数据集上精确度对比,可迁移学习算法在处理不同分布数据集时,其分类性能明显优于传统分类器。另外,与TrAdaBoost算法相比,Tr_LSA算法也基本比TrAdaBoost算法的精度高。
表1 各种算法下实验精确度
数据集 SVM NB TrAdaBoost Tr_LSA
comp vs rec 0.633 0.601 0.814 0.865
rec vs sci 0.707 0.623 0.785 0.819
sci vs talk 0.628 0.599 0.792 0.820
comp vs sci 0.693 0.704 0.811 0.841
comp vs talk 0.714 0.711 0.795 0.840
4 结论
迁移学习方法放松了对训练数据和测试数据同分布假设的要求,利用相似领域的数据帮助目标领域数据分类。本文提出一种基于潜在语义分析的迁移学习方法,首先通过对大量数据进行统计分析,通过奇异值分解技术,对训练数据挖掘其深层的语义含义,得到源领域与目标领域的一个低维的潜在语义空间。然后以此为桥梁,挖掘特征项与文本之间的关联关系,去除同义词”噪音”影响,进而从源领域中筛选出与目标领域文本关联度较大的特征项,作为迁移词。在大量实验数据中表明,本算法能较大提高分类的精确度。同时本算法的可扩展性强,算法可扩展性强,当资源不断增多,算法的时间复杂度与空间复杂度不会明显增加。
[参考文献]
[1]Dietterich T G,Domingos P,Getoor L,et al.Structured machine learning:the next ten years [J].Machine Learning,2008,73(1):3-23.
[2]董秀杰.基于LSA的文本分析[D].北京理工大学.2008.
[3]刘昌钰,唐常杰,于中华,杜永萍,郭颖.基于潜在语义分析的BBS文本Bayes鉴别器[J].计算机学报,2004,27(4):566-572.
关键词:迁移学习;机器学习;潜在语义分析;语义相关
1 潜在语义分析方法(LSA)
潜在语义分析是一种将文本信息组织成空间语义结构的新模型,其基本思想是假设文本中的特征项与特征项之间存在某种联系,通过对大量的文本集进行统计分析,从中提取出特征项的上下文使用含义。
潜在语义分析的基本过程是:首先构造典型特征项—文本矩阵M,然后应用奇异值分解技术,把特征项汇和文本从高维空间降到了低维潜在语义空间。最后得到一个新的矩阵M’。潜在语义分析只取前k个最大的奇异值,而将剩余的值设为零。
2 基于潜在语义分析方法的迁移学习
2.1 数据的矩阵表示
潜在语义分析出发点是文本中的特征项与特征项之间存在某种联系,采用统计计算的方法,对大量的文本进行分析来寻找这种潜在的语义结构。在迁移学习语义分析的实现方法中文本矩阵的元素值并不仅仅是词频信息以及对单个文本的贡献度,它还体现着特征项在文本集中区别、分辨类标签的能力。因此对特征项权重的计算方法包括文本贡献权重和类标签贡献权重两部分。最后将两个权重相乘,得到最终特征项权重。
2.2 建立源领域与目标领域之间的桥梁
由于两个领域间的相似性,可能存在一个低维的潜在语义空间,成为连接源领域和目标领域之间的桥梁,从而帮助完成源领域到目标领域的分类方法的迁移。
本文采用潜在语义分析方法挖掘源领域与目标领域中这一共同的低维潜在语义空间。使用奇异值分解技术,将源领域与目标领域的高维数据特征表示,映射到低维潜在语义空间中。
2.3 源领域到目标领域特征项的迁移
通过建立的低维潜在语义空间可得到文本和特征项的k维特征表示。但是在这个潜在空间中,源领域数据与目标领域数据拥有共同的特征表示,这有利于计算、分析有用的特征项,进而实现源领域中有用特征项到目标领域的迁移。从源领域筛选有用特征项主要分两步完成。首先要消除同义词“噪音”影响,然后从源领域中查找有用特征项。通过两步矩阵调整,即可得到目标领域数据的新的特征表示。
2.4 算法描述(Tr_LSA)
输入:两个训练数据集Ta和Tb,一个未标记的测试数据集S,一个传统的分类器。
输出:测试数据集S的标签
(1)对训练数据做去停用词、词干化等处理,得到特征项-文本矩阵M。(2)对矩阵M进行奇异值分解,将M中特征项与文本映射到低维潜在语义空间,建立联系Ta与Tb之间的桥梁。(3)去除“噪音”,从Ta中找出Tb中特征项的同义词,调整矩阵M结构;根据调整后的矩阵M,从Ta中找出迁移词,再对矩阵M进行调整。(4)分析调整后的矩阵M,得到目标领域数据新的特征表示,利用传统分类器,在训练数据集中得到一个最终分类器,对测试数据集S进行分类。
由于Tr_LSA算法对特征项和文本的处理都是在低维空间中计算的,所以在一定程度上提高了算法的时间效率。
3 实验结果与分析
3.1 数据集
本文使用20 newsgroups数据集,采用层次化的组织方式,包含7个顶级类别、20个子类别,并将其分成5组数据集。
3.2 对比算法
为了验证基于潜在语义分析的迁移学习方法的有效性,选取了传统文本分类器SVM和NB做对比,并使用TrAdaBoost算法与本文方法作对比。表1展示了传统分类器和迁移学习算法在不同数据集上精确度对比,可迁移学习算法在处理不同分布数据集时,其分类性能明显优于传统分类器。另外,与TrAdaBoost算法相比,Tr_LSA算法也基本比TrAdaBoost算法的精度高。
表1 各种算法下实验精确度
数据集 SVM NB TrAdaBoost Tr_LSA
comp vs rec 0.633 0.601 0.814 0.865
rec vs sci 0.707 0.623 0.785 0.819
sci vs talk 0.628 0.599 0.792 0.820
comp vs sci 0.693 0.704 0.811 0.841
comp vs talk 0.714 0.711 0.795 0.840
4 结论
迁移学习方法放松了对训练数据和测试数据同分布假设的要求,利用相似领域的数据帮助目标领域数据分类。本文提出一种基于潜在语义分析的迁移学习方法,首先通过对大量数据进行统计分析,通过奇异值分解技术,对训练数据挖掘其深层的语义含义,得到源领域与目标领域的一个低维的潜在语义空间。然后以此为桥梁,挖掘特征项与文本之间的关联关系,去除同义词”噪音”影响,进而从源领域中筛选出与目标领域文本关联度较大的特征项,作为迁移词。在大量实验数据中表明,本算法能较大提高分类的精确度。同时本算法的可扩展性强,算法可扩展性强,当资源不断增多,算法的时间复杂度与空间复杂度不会明显增加。
[参考文献]
[1]Dietterich T G,Domingos P,Getoor L,et al.Structured machine learning:the next ten years [J].Machine Learning,2008,73(1):3-23.
[2]董秀杰.基于LSA的文本分析[D].北京理工大学.2008.
[3]刘昌钰,唐常杰,于中华,杜永萍,郭颖.基于潜在语义分析的BBS文本Bayes鉴别器[J].计算机学报,2004,27(4):566-572.