【摘 要】
:
互联网技术的快速发展催生了大量的智能设备,如智能电视、交互式车载系统等,这些智能设备的一个核心问题就是用户交互功能,成为各大厂商争相研究的重点,语音交互功能最大的优势在于方便快捷,极大解放了用户的双手,用户只需要通过语音将信息输入系统,就可以实现一系列的智能操作,比如播放音乐、打开空调等。同时智能设备拥有超海量的影音内容,与人们日常生活的联系越加紧密,在充分满足用户需求的同时,也使用户寻找所需内容
【基金项目】
:
国家自然科学基金(61773401); 湖北省社科基金(2017132);
论文部分内容阅读
互联网技术的快速发展催生了大量的智能设备,如智能电视、交互式车载系统等,这些智能设备的一个核心问题就是用户交互功能,成为各大厂商争相研究的重点,语音交互功能最大的优势在于方便快捷,极大解放了用户的双手,用户只需要通过语音将信息输入系统,就可以实现一系列的智能操作,比如播放音乐、打开空调等。同时智能设备拥有超海量的影音内容,与人们日常生活的联系越加紧密,在充分满足用户需求的同时,也使用户寻找所需内容更加困难。基于大数据分析和人工智能技术,如何提高候选实体集的排序质量,解决信息过载难题成为亟待解决的问题。本文以影音短文本实体为研究对象,选取了2020年4-5月某平台影音语音交互系统的390420对影音短文本数据,对影音短文本实体排序的研究不仅有利于提高候选实体集排序的精确度,更好地满足用户需求,提升用户体验满意度,也丰富了短文本实体排序研究体系,具有很大的实用价值和商业价值。本文主要对智能电视、车载音乐交互系统的短文本实体排序方法进行了研究。本文总分为五个部分:第一部分阐述了本文的研究背景与意义、国内外实体模糊文献综述与主要研究内容。第二部分,介绍了实体模糊与排序学习的理论基础,对长短文本研究与实体模糊的概况进行了介绍,同时阐述了相关机器学习与深度学习理论。第三部分,针对影音短文本原始数据进行数据清洗及预处理,对处理后数据进行探索性分析,分析目前实体模糊方案所存在的问题,并基于目前影音短文本实体模糊领域所存在的问题,从拼音、文本、实体热度等层面进行特征提取,构建指标体系,量化目前所存在的问题。第四部分,针对第三部分所构建的特征体系,分别构建Rank SVM模型、MLP模型与Wide&Deep模型对粗召候选实体集进行排序与分析,并根据模型评价指标比较不同模型的排序效果,确定最优模型。实验证明,Wide&Deep模型相较于其他模型的排序结果具有更高的精确率。本文主要贡献在于:(1)构建了较为完善的影音短文本目标实体与候选实体的相似度度量特征体系,探究了相关特征的影响程度,其中实体热度信息较为重要;(2)针对线性模型泛化能力较弱与神经网络模型记忆能力不强等问题,构建了Wide&Deep模型,实验结果表明,兼顾记忆能力与泛化能力的Wide&Deep模型相较单一的机器学习或深度学习方法排序结果具有更高的精确率。
其他文献
在如今多元化的职场环境下,未婚女员工对于自身性别的认知有所提升,比起为了家庭舍弃自身事业,她们更迫切地想要寻求一个二者间的平衡点,向往拥有自己的生活和发展。通过文献整理,了解到针对未婚女员工的研究较少,更遑论该群体的生涯适应力问题,但也发现社会支持与生涯适应力之间存在相关性。因此,本文以未婚女员工作为研究对象,基于社会支持理论开展实务活动,期望帮助该群体提高生涯适应力。这样不仅能够为生涯发展研究提
我国住房制度随改革开放的脚步不断前进,社区已然成为居民区的日常居住场所。为适应房屋商品化带来的现实问题,中国于20世纪80年代引入物业管理概念。物业管理带有专业化、企业化的形象开始融入社区,影响民众的生活。2021年初施行的《民法典》首次将物业服务合同列入《合同编》,强调物业公司在社区物业管理过程中的重要地位。但是随着中国经济的快速发展,影响社区治理的主体从一元转换到多元,各主体的利益冲突导致的矛
在社会发展进程中,作为生存核心力量的劳动力也随着科学技术的不断革新而在持续进行人口更新迭代。近年来,伴随着网络信息技术成长起来的新生代成为职场的主力军,并在社会生产中承担着重要的角色分工。同时,新生代作为不同时代背景下成长起来的一代人,具有区别于过去企业员工的思维模式和行为特点,在职场中,他们难以避免与传统的管理方式产生矛盾,极易出现职业适应问题。据前程无忧等大数据平台的统计,当今新生代员工的离职
随着社会的进步与发展,人们的生产方式不断改变,生活水平逐渐提高,传统的婚姻观念不断受到冲击。日前,人民日报公布了近15年的离婚数据,从1987年到2017年,离婚数量从1987年的58.1万对增长到2017年的437.4万对,增长6.53倍,飙升的离婚率引起热议。受离婚率不断攀升,交通事故及急重症疾病的大幅度增大等因素影响,单亲家庭数量也不断增多。人们在关注单亲家庭时,往往将目光集中在成长于不完整
自然语言处理(Natural Language Processing,NLP)可以让计算机理解人类的语言方式并进行学习,进而处理文本信息。中文文本由句子组成,句子由词语组成,词是最小的表达意义的单元,但是中文词语和英文单词不一样,没有空格将其分开,需要采用一定的手段来将中文词语从句子中分隔开来,即进行中文分词。中文分词是所有文本信息处理工作的第一步,分词准确与否会影响到后续工作。目前常见的中文分词
受新冠疫情的影响,我国的经济社会发展出现下滑,导致大量人员失业以及消费萎靡不振等问题,党中央为解决此类问题,在2020年5月底提出放开地摊经济政策,至此地摊经济自被取缔多年以来再次出现在大众视野,迅速受到广大群众的关注和热议,网上用户对此各抒己见。地摊经济作为国家的一项政策,是市场经济的重要组成部分,对解决就业、刺激消费、复苏经济有重要作用,通过对微博用户的在线动态进行分析,能有效获取广大民众对地
随着我国经济高质量发展的推进,创新已经逐渐成为提高综合国力与企业市场竞争能力的一个关键因素。习近平总书记曾明确指出,我国应该始终坚持将自主创新视为引导经济发展的第一驱动力,打造一个与科技、教育、产业、金融等行业紧密融合的创新型经济体系。作为制造业的主力军,高技术产业在推动产业结构升级、提升科技发展水平等方面发挥着重要作用。本文将高技术产业作为重点研究的对象,从投入、产出等角度出发,结合环境因素构建
随着我国金融市场的日益强大,相关的法律法规更加完善,越来越多的企业和管理者希望通过上市来募集资金以完成企业的扩张、创新、研发、投资等行为。但是与此同时,由于市场的走向和发展有太多的不确定性,所以企业在这样的环境中面临更多的危机。上市公司的资金支持比较强大,能够在经济市场中扮演更加稳健的角色,但是其所面临的风险与竞争自然也更多,也有不少的上市公司没能在动荡的环境中渡过难关,陷入危机甚至是宣布破产。而