【摘 要】
:
机器学习通过研究计算机如何模拟人类的学习行为以获取新的知识或技能,重新组织已有的知识结构达到不断改善自身性能的目的。但是机器学习有一个很重要的假设前提,就是训练数
论文部分内容阅读
机器学习通过研究计算机如何模拟人类的学习行为以获取新的知识或技能,重新组织已有的知识结构达到不断改善自身性能的目的。但是机器学习有一个很重要的假设前提,就是训练数据和测试数据必须服从相同的数据分布。这给实际应用带来了很大的麻烦。如今信息更新迅速,当出现一个新的领域时,样本空间的数据往往较少、特征稀疏,此时再利用传统的机器学习对数据分类就会产生较大的泛化误差。迁移学习是一种跨领域、跨任务的学习方法。当目标领域带标签的数据非常少时,单独学习难以达到较好的性能。迁移学习通过对多个相似领域、任务之间知识的迁移与共享,达到使单个目标任务性能提高的目的。这一特点使得迁移学习能很好地解决机器学习中数据稀疏性问题。针对已有迁移学习方法中存在需要提前提供源领域数据集、或者只考虑文本的语义信息、或者只考虑保持文本的数据结构的问题,本文提出一种基于潜在语义分析的迁移学习方法。首先,从目标文本数据中提取关键词输入某搜索引擎,选取前几页文本作为最相关数据,利用扩展的潜在语义分析方法从目标领域数据中提取出与目标分类标签语义相关的关键词作为种子特征集;然后,从社交媒体无向图中提取包含所有种子特征集的子图,利用扩展的拉普拉斯特征映射方法,将每个数据在一个低维的潜在语义空间中表示出来;最后,以SVM分类方法为基分类器对目标测试文本数据进行分类。实验结果表明本文方法在目标分类器的分类精度上优于传统的机器学习和迁移学习方法,并且本文方法并不需要提前给出源领域数据,减轻了源领域数据提供者的负担。
其他文献
本课题研究苹果分级DSP系统中分级执行机构的控制电路及与上位机(PC机)通信接口的设计与实现,运用数字电路技术和串口通信技术,为了解决DSP芯片本身输出电流不高和串口通信能力
语义Web的中心问题是如何把数据表示为机器可理解的形式,以便数据能被跨应用和跨企业地共享和复用。本体是实现语义层次上信息共享和交换的基础,被认为是语义Web的关键使能技术
IPv6优势的一个重要表现就是实现了切实的移动性。本课题将对基于IPv6的移动通信环境下通信节点的移动过程进行分析,重点研究一个影响通信性能的瓶颈问题---因为节点的跨区域
P2P技术以其强大的技术潜力引起了人们越来越多的关注,它被广泛地应用在文件共享、对等计算、协同工作、即时通讯等方面。 P2P作为以文件共享为初始目的的应用,允许任意终
随着网络技术的不断发展,信息的安全传输显得日益的重要,相关的研究也受到了人们的日益关注。建立合理的信任模型就是解决网络中节点信息安全传输的一种很好的途径。然而一些
在深亚微米工艺中总线功耗成为集成电路功耗的最主要的组成部分。DSP技术已成为数字化最重要的基本技术之一。DSP是一种数字信号处理运算的微处理器,它具有特殊的总线结构——
工业产品出厂前必须经过一系列严格检查,各项指标都符合国家标准才能投放市场,厂家必须建立一套严格的测控体系,将测试模拟环境中的参数数据采集到测控系统中心计算机,并且以
随着信息技术的进步和人民生活水平的提高,数字电视和互联网正在走进千家万户,数字电视机顶盒(STB)是目前模拟电视向数字电视过渡的重要设备,如何在此平台的基础上为用户提供网
软件产业经过几十年的发展,已经成为现代信息社会的重要支柱,在积累了丰富的理论研究成果和开发经验的同时,也存在着很多的问题。为了解决这些问题,人们提出了各种不同的技术
企业在建立信息化设计之初未曾考虑各个子系统之间的通信问题,随着时间的推移,企业所建立的信息系统越来越多。一个需要在多个应用系统之间综合操作的用户就必须设置大量的账