一种基于潜在语义分析的迁移学习方法

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:rayjoyjoyray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:迁移学习是研究如何利用大量的源领域标记数据,帮助少量标记甚至无标记的相关领域来解决特征稀疏问题的一种方法。针对迁移学习的研究大多只是从特征项表层对数据进行分析并没有考虑到源领域与目标领域之间的语义相关性问题,提出一种基于潜在语义分析的迁移学习方法。通过实验表明,本文算法可以较大提高分类器的精确度。
  关键词:迁移学习;机器学习;潜在语义分析;语义相关
  1 潜在语义分析方法(LSA)
  潜在语义分析是一种将文本信息组织成空间语义结构的新模型,其基本思想是假设文本中的特征项与特征项之间存在某种联系,通过对大量的文本集进行统计分析,从中提取出特征项的上下文使用含义。
  潜在语义分析的基本过程是:首先构造典型特征项—文本矩阵M,然后应用奇异值分解技术,把特征项汇和文本从高维空间降到了低维潜在语义空间。最后得到一个新的矩阵M’。潜在语义分析只取前k个最大的奇异值,而将剩余的值设为零。
  2 基于潜在语义分析方法的迁移学习
  2.1 数据的矩阵表示
  潜在语义分析出发点是文本中的特征项与特征项之间存在某种联系,采用统计计算的方法,对大量的文本进行分析来寻找这种潜在的语义结构。在迁移学习语义分析的实现方法中文本矩阵的元素值并不仅仅是词频信息以及对单个文本的贡献度,它还体现着特征项在文本集中区别、分辨类标签的能力。因此对特征项权重的计算方法包括文本贡献权重和类标签贡献权重两部分。最后将两个权重相乘,得到最终特征项权重。
  2.2 建立源领域与目标领域之间的桥梁
  由于两个领域间的相似性,可能存在一个低维的潜在语义空间,成为连接源领域和目标领域之间的桥梁,从而帮助完成源领域到目标领域的分类方法的迁移。
  本文采用潜在语义分析方法挖掘源领域与目标领域中这一共同的低维潜在语义空间。使用奇异值分解技术,将源领域与目标领域的高维数据特征表示,映射到低维潜在语义空间中。
  2.3 源领域到目标领域特征项的迁移
  通过建立的低维潜在语义空间可得到文本和特征项的k维特征表示。但是在这个潜在空间中,源领域数据与目标领域数据拥有共同的特征表示,这有利于计算、分析有用的特征项,进而实现源领域中有用特征项到目标领域的迁移。从源领域筛选有用特征项主要分两步完成。首先要消除同义词“噪音”影响,然后从源领域中查找有用特征项。通过两步矩阵调整,即可得到目标领域数据的新的特征表示。
  2.4 算法描述(Tr_LSA)
  输入:两个训练数据集Ta和Tb,一个未标记的测试数据集S,一个传统的分类器。
  输出:测试数据集S的标签
  (1)对训练数据做去停用词、词干化等处理,得到特征项-文本矩阵M。(2)对矩阵M进行奇异值分解,将M中特征项与文本映射到低维潜在语义空间,建立联系Ta与Tb之间的桥梁。(3)去除“噪音”,从Ta中找出Tb中特征项的同义词,调整矩阵M结构;根据调整后的矩阵M,从Ta中找出迁移词,再对矩阵M进行调整。(4)分析调整后的矩阵M,得到目标领域数据新的特征表示,利用传统分类器,在训练数据集中得到一个最终分类器,对测试数据集S进行分类。
  由于Tr_LSA算法对特征项和文本的处理都是在低维空间中计算的,所以在一定程度上提高了算法的时间效率。
  3 实验结果与分析
  3.1 数据集
  本文使用20 newsgroups数据集,采用层次化的组织方式,包含7个顶级类别、20个子类别,并将其分成5组数据集。
  3.2 对比算法
  为了验证基于潜在语义分析的迁移学习方法的有效性,选取了传统文本分类器SVM和NB做对比,并使用TrAdaBoost算法与本文方法作对比。表1展示了传统分类器和迁移学习算法在不同数据集上精确度对比,可迁移学习算法在处理不同分布数据集时,其分类性能明显优于传统分类器。另外,与TrAdaBoost算法相比,Tr_LSA算法也基本比TrAdaBoost算法的精度高。
  表1 各种算法下实验精确度
  数据集 SVM NB TrAdaBoost Tr_LSA
  comp vs rec 0.633 0.601 0.814 0.865
  rec vs sci 0.707 0.623 0.785 0.819
  sci vs talk 0.628 0.599 0.792 0.820
  comp vs sci 0.693 0.704 0.811 0.841
  comp vs talk 0.714 0.711 0.795 0.840
  4 结论
  迁移学习方法放松了对训练数据和测试数据同分布假设的要求,利用相似领域的数据帮助目标领域数据分类。本文提出一种基于潜在语义分析的迁移学习方法,首先通过对大量数据进行统计分析,通过奇异值分解技术,对训练数据挖掘其深层的语义含义,得到源领域与目标领域的一个低维的潜在语义空间。然后以此为桥梁,挖掘特征项与文本之间的关联关系,去除同义词”噪音”影响,进而从源领域中筛选出与目标领域文本关联度较大的特征项,作为迁移词。在大量实验数据中表明,本算法能较大提高分类的精确度。同时本算法的可扩展性强,算法可扩展性强,当资源不断增多,算法的时间复杂度与空间复杂度不会明显增加。
  [参考文献]
  [1]Dietterich T G,Domingos P,Getoor L,et al.Structured machine learning:the next ten years [J].Machine Learning,2008,73(1):3-23.
  [2]董秀杰.基于LSA的文本分析[D].北京理工大学.2008.
  [3]刘昌钰,唐常杰,于中华,杜永萍,郭颖.基于潜在语义分析的BBS文本Bayes鉴别器[J].计算机学报,2004,27(4):566-572.
其他文献
摘 要:交通运输对保证国民经济持续健康快速发展起着重要的促进作用,也是社会经济发展的基础,人类活动的基本构件之一。然而随着城市化进程的推进,城市道路阻塞已经成为常见现象,严重影响了城市经济建设和运行效率。本文则基于网络复杂性理论方面分析交通网络阻塞传播特性,并给予相关合理消除交通拥堵方案,以供参考。  关键词:网络复杂性;交通网络阻塞;传播特性;拓扑  1 城市交通复杂性与网络疾病相关概述  交通
期刊
摘 要:随着综合承载技术的引入,中国联通提出了本地承载与传送网目标结构,综合承载传送网承载以基站回传业务、集团客户业务为主的电信级业务。本文针对综合承载技术在山东联通的应用情况进行分析研究,包括对各厂家业务承载方案对比,与RNC对接方案等实际工程中遇到的问题进行探讨。  关键词:分组;综合承载传送网;RNC/BSC  1 引言  山东联通在2012年开始分组承载传送网的建设,2013年基本完成核心
期刊
摘 要:为适应我国国民经济和社会信息化快速发展的步伐,本文分析了在“三网融合”下的广电网络的现状以及所要面临的挑战。在科技不断发展的道路上,广电网络的发展之路要融合到新媒体时代,就必须根据自身的条件,与时俱进,不断创新。加快网络的发展从而推动“三网融合”新业务的发展。  关键词:信息化;三网融合;广电网络  随着数字化科技、互联网科技的发展,网络已经成为人们生活当中的重要组成部分,在2010年一月
期刊
摘 要:针对机车车辆线路动应力试验,基于疲劳强度评定和疲劳寿命预测理论,开发出了一套试验数据处理软件。运用雨流计数法的循环计数算法,满足了线路动应力实验对海量数据进行计数的需求;介绍了软件的基本结构和数据处理流程。软件已在多次线路动应力实验数据处理中得到应用,计算结果可靠。  关键词:动应力实验;疲劳强度;雨流计数法  1 引言  随着列车营运速度的不断提高,在营运过程中,机车车辆关键零部件的疲劳
期刊
摘 要:随着广播电视的发展,以及“十五”计划提出的实现“两化”的要求:即电视节目制作播出数字化、节目传输交换网络化,是广电未来发展的必然趋势。文中对新闻制播一体化网络的构建进行了创新性的设计。  关键词:新闻直播;一体化;网络;构建  在电视领域中采用数字技术,可使信号质量在节目录制、节目制作、信号传输和播出等各个环节得到保证,解决了模拟技术固有的噪声积累、信号衰减等难题。我台适应广电行业未来发展
期刊
摘 要:石油测井中,井下环境恶劣,而地面上设备繁多,往往给测井带来不便。通过可见光摄像头可以清楚地了解井下环境,地面上采用无线通讯方式也可以减少电缆数量,简化地面环境。设计并实现了基于USR-WIFI232的无线传输模块,编写上位机通讯软件,实现井下图像采集与地面无线传输。  关键词:摄像头;无线通讯;Wi-Fi  成像测井是传统的测井方法,随着技术的发展,可见光成像测井已经发展进入现代测井的前沿
期刊
摘 要:本文通过对智能传感器发展历程与主要特点的讨论,归纳智能传感器的功能与应用方向。  关键词:传感器技术;智能传感器;信息技术  随着微电子技术的飞速发展,纳米技术的应用,大规模集成电路工艺技术日益完善,集成电路器件的密集度越来越高。以硅材料为基础的微机械加工技术和大规模集成电路工艺实现各种仪表传感器系统的微型化,也称为专用集成微型传感器技术。除了具有精度高、高可靠性、高稳定性、高信噪比、高分
期刊
摘 要:虽然现阶段有线视频监控仍是校园监控的主流,无线监控由于带宽、抗干扰性等原因应用较少。但随着IEEE802.11等相关技术的不断演进,无线视频监控凭借其自身的优点,在校园监控领域将会得到越来越多的应用。  关键词:无线监控;WI-FI  视频监控是安防系统的重要组成部分。通过监控,既可以第一时间掌握事态发展,又可在事发后追溯当时情况,在创建平安校园的工程中,发挥着重要作用。现阶段的视频监控已
期刊
摘 要:铁路信息化建设已经成为推动铁路快速发展的关键力量,青藏铁路公司数据中心建设包括存储虚拟化、服务器虚拟化、网络虚拟化以的建设。在尽量不对上线业务造成影响的情况下,将搭载在物理服务器或部分虚拟化服务器上的业务整合到一个统一的大虚拟化计算资源池中。  关键词:数据中心;服务器虚拟化;存储虚拟化;网络虚拟化  1 引言  铁路发展到现在,信息化建设已经成为推动铁路快速发展的关键力量,不论是1230
期刊
摘 要:在当今的社会电子信息技术科学的发展速度可以说是日新月异,作为发展中国家的中国如果在电子信息技术领域没有一个明确的发展趋势,那么对于今后在综合国力的竞争上我们将难以有所优势。学习发达国家相关领域的优势,结合自身发展的特点,找出一个适合我国电子信息发展的战略是当前电子信息技术科学发展的大势所趋。本文将着重论述在今后几年我国在电子信息领域的发展趋势。  关键词:趋势;电子信息;优势  1 我国电
期刊