【摘 要】
:
随着Web2.0应用的迅速发展和快速普及,大量用户生成的数据成为了Web信息服务的基础,例如,产生于电商平台的网购数据可用于分析用户的购物偏好,从而实现商品的个性化推荐。这些数据中的特征之间往往存在非线性的图型依赖关系,同时存在无法观测到的特征(如用户对商品多个描述维度的偏好)。对数据进行建模、并实现有效的信息服务,需要建立有效描述无法观测到的特征并对所蕴含的依赖关系进行有效计算分析的知识模型。作
论文部分内容阅读
随着Web2.0应用的迅速发展和快速普及,大量用户生成的数据成为了Web信息服务的基础,例如,产生于电商平台的网购数据可用于分析用户的购物偏好,从而实现商品的个性化推荐。这些数据中的特征之间往往存在非线性的图型依赖关系,同时存在无法观测到的特征(如用户对商品多个描述维度的偏好)。对数据进行建模、并实现有效的信息服务,需要建立有效描述无法观测到的特征并对所蕴含的依赖关系进行有效计算分析的知识模型。作为一种重要的概率图模型,贝叶斯网(Bayesian Network,BN)使用具有概率语义的有向无环图对依赖关系进行建模,并可实现有效的概率推理。用隐变量描述无法观测到的特征,并将隐变量(Latent Variable)引入BN,可增强BN的可解释性。带隐变量的BN(Bayesian Network with Multiple Latent Variables,BNML),在个性化推荐和医疗预诊断等信息服务中具有广泛应用。然而,隐变量的引入导致BNML学习时需要计算大量的中间结果,使得模型学习具有较高的时间复杂度。如何高效地学习BNML,是解决上述问题的基础,具有重要的意义,也具有许多挑战。本文的主要研究工作概括如下:(1)分析构建BNML的效率瓶颈,针对特征组合较多使得基于结构EM(Structural Expectation Maximization,SEM)算法进行BNML参数学习时间复杂度较高这一问题,提出将BNML与深度神经网络进行有机结合的思路,建立基于聚类思想来减少特征间组合数的方法,从而降低BNML构建的时间复杂度。(2)提出基于混合生成神经网络(Mixture of Generative Neural Network,MGAN)和循环神经网络(Recurrent Neural Network,RNN)的深度神经网络框架,实现同时使用BN有向无环图和数据特征进行聚类分析的方法,并提出减少聚类中所产生噪声的方法。(3)为了能够在聚类后仍可有效使用SEM算法构建BNML,提出基于聚类结果的数据降维处理和参数学习方法,确保处理后的数据能够满足SEM和BNML的约束,且不改变基于SEM的BNML的模型构建过程。(4)使用真实数据集测试了基于聚类框架的BNML学习方法的高效性和有效性,给出了实验结果和相应的性能分析。进一步,将提出的方法用于COVID-19数据的分析中、开展了实证研究,基于BNML提出各城市感染率的计算方法,并使用Echarts实现COVID-19预警的可视化信息服务。
其他文献
视频运动目标跟踪是计算机视觉领域的重要研究分支之一,并被广泛应用到如医学影像诊断、导弹制导、机器人、视频监控等军用民用领域中。随着近年来人工智能技术的飞速发展,该领域取得了很大的进步,大量优秀的成果在这一时期涌现,解决了目标跟踪领域中的基础问题。但由于现实场景中的多样性和复杂性,如存在背景混乱、遮挡、光照变化、离开视野等多种因素,使得目前的跟踪算法仍然很难适应多种复杂场景带来的干扰,因此如何提升算
太阳斑点图像重建是天文观测领域中一个重要的研究问题。由于地球大气的影响,地基望远镜只能观测到模糊的太阳斑点图像,在太阳研究中必须要用到高分辨率的太阳图像。所以太阳斑点图像进行高分辨率的重建一直是天文学和太阳物理学中的重要研究内容。传统重建算法利用太阳斑点图的统计信息,计算过程复杂,重建时间较长。剪切波变换是一种多尺度几何分析方法,相对于其他多尺度几何分析方法,剪切波变换能更好的适应人类的感知,同时
伴随现代技术的发展,社会网络不论从规模和复杂度上来看都呈现出快速增长的势态,针对社会网络的研究如日方升。结构洞是指社会网络中的关键性节点,一般理解为在网络中起到“桥”作用的节点,是网络中连接各个部分的关键。结构洞的研究对分析网络信息传播的扩散特性和网络社区发现都有重要意义。传统结构洞发现算法通常侧重于处理无权社会网络,通过网络的结构特征进行结构洞的发现。而在真实的社会网络中,节点之间除了描述它们关
云南由于地处边疆,地域广阔,长久以来陆路交通不便,发展航空是解决交通不便的重要措施。云南是航空大省,目前云南省运营的机场数量较多,在全国位居前三,仅民用机场数量就达15个之多,为了推进机场安检的智能化建设,本文对智能飞机安全监护和智能机务安全检测进行研究。飞机安全监护系统主要对进入停机坪人员的合法性进行自动识别。由于进入停机坪的人员在监控视频中都是小目标,存在光线昏暗,人员密集等复杂场景,对目标检
Web API是一种可供应用程序实现存储、消息、计算等服务功能的应用编程接口。它的好处在于容易被访问、开发、组合和扩展,因此在基于Mashup的服务系统的构建方面起着重要的支撑作用。随着互联网上Web API数量的迅猛增多,开发者面临着如何从众多功能相似的API中挑选最合适的目标以构建Mashup的问题,这为开发者带来了许多挑战。通过构建API的推荐系统则有助于缓解此问题,因此已经有许多基于协同过
随着全球一体化进程发展和“一带一路”倡议的提出,中国与周边国家的经济、技术、文化交流在广泛和纵深方面不断发展。彼此间跨语言的共享和交流成为保障和巩固发展的前提。近年来,自然语言处理技术地进步带来了机器翻译技术的飞速发展和翻译质量的大幅提升,但对于语料匮乏的非通用语翻译来说,仍然难以从根本上解决机器翻译质量低等问题。群智协同计算是伴随互联网和大数据地发展所提出的,对开放网络环境中群智资源的高效管理和
基于位置的社交网络(LBSN)随着技术的不断革新,受到越来越多的人们喜爱,由此产生大量位置相关数据,可用来提供基于位置的服务。在位置服务研究中兴趣点(POI)推荐备受关注。兴趣点推荐可以帮助用户探索感兴趣的地点,在兴趣点推荐时不可避免的面临着用户签到数据稀疏以及如何提高用户满意度的问题。在用户探索某一兴趣点的过程中,时空因素具有较大的影响作用。因此,本文提出两种兴趣点推荐方法,探索时空因素对用户访
安全是机场的生命线,是民航业永恒的主题,建设机场安全监管平台至关重要,“智”造加速势在必行。然而目前机场停机坪一线人员缺乏必要的信息终端,且监控系统不够智能,因此,一方面一线人员面临突发情况,难以迅速找到相关预案,更重要的是缺乏对一线岗位的安全工作和规范操作的实时、完整管控,难以对机场安全态势进行整体把握,相关信息滞后失真,安全管理常常是事后管理。本文对云南机场集团丽江三义国际机场停机坪视频监控中
蛋白质的可溶性是指蛋白质能否以小分子状态溶解于水或其它溶质的能力。可溶性是蛋白质生物物理研究和工业应用成功的重要先决条件,对基于蛋白质的药物设计和食品生产有至关重要的作用。传统生物实验对蛋白质可溶性的测定费时费力,也难以满足蛋白质数量的增长速度。蛋白组数据的累积为基于计算方法的蛋白质可溶性预测创造了可能性,也使之成为一个可选的替代方法。然而,现有方法在表示和挖掘可溶性特征时,仍存在一定的改进空间。
关联实体是知识的直观表达方式,知识图谱(Knowledge Graph,KG)包含大量三元组形式的关联实体,为知识驱动的应用提供结构化资源。给定查询,KG关联实体排序通过量化评价关联强度,明确候选实体的先后顺序。KG关联实体排序是实体链接、实体推荐、关联查询和关联实体推理等面向实体应用的重要环节。同时,KG关联实体排序是增强智能系统在知识发现、融合和计算过程中关联分析能力的关键要素,具有重要意义。