Behaviors Modeling and Analysis of Big Data from Web Apps Using Machine Learning and Deep Rnn Techni

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xiaoqingxiaoming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种移动计算的大数据服务应用,它是一种基于上下文情境处理网络平台用户文本数据的方法,应用数据挖掘技术和深度机器学习技术来进行想法/行为建模和数据分析。研究展示了,如何在文本数据处理过程中应用深度递归神经网络(Deep RNN)算法、机器学习和模式识别,如何进行联想记忆保存和实验优化,如何通过Python编程建立机器学习库。在这些工作中,基于深度递归神经网络算法的Python开发的模型架构,用来为文本行为模型提供概念支持,通过语境词特征识别来进行总体数据分析的行为检测。  首先,研究展示了一个web应用程序的示例原型,它是可以获取用户关于项目评论等的文本的一个系统(文中称为行为数据,可以用于数据收集的电子服务),可以看做行为分析项目的数据源。主要研究了深度RNN算法和行为建模概念如何应用到这样的分类数据集的行为模式检测中。通过观察潜在的上下文特征(词在文本中的情感属性),可以与一些行为模式关联起来作为句子/段落/文件/记录的子集。方法包括:首先,手工数据注释作为标签记录集的局部思想建模和行为检测方法。其次,建立向量数组的词集(上下文感知特性),然后应用深度RNN算法来实现监督机器学习技术,此技术通过检测这些情景化特征向量的有序发生来学习,再构建智能的文本形式模型。文本模型应该准确地产生可接受的目标预测,描述了与已知的分类显著的相似性,在训练算法时通过自动条款推理机制进行行为学习。随后,我们能够定义适当的数据表示(行为建模),在这些数据表示和构建模型的推断中学习。  通过执行基于机器学习方法,特别是深度RNN学习,它使用包含上下文保存词特征的数值化向量作为数组输入,进行训练和测试以解释本文中所提出的方法。第一个文本语料库是转换成一个矩阵向量即数组的句子,单词的数值化格式(同样单词出现的次数)。这些向量通过使用分布式(DM)目标词来预测词汇在文档中的上下文关系。接下来,深层神经网络学习算法被用来通过计算特征识别功能学习向量模式。在神经网络设计的多维矩阵中,采用低水平代数计算优化支持差异化的数学表达式。此外,存储单元元素作为神经元单位被定位在网络中,用来有效构建、存储和维持确定信号在每个阶段的复现。  尽管拟议的方法可能适用于广泛的网页和移动计算环境的情况下,但人们更关注情感数据。用案例研究的实验,使用合成和真实世界数据进行情感分析(SA);通过特征建模和算法训练得到文本模型,进行分析和评估。通过使用可靠的性能指标评估,部署了真实行为检测场景的智能文本模式,最后分析讨论了结果。实验结果证明,我的方法实现了准确、健壮和可靠的解决方案,可以克服以前存在的一些问题。进一步,通过比较它与其他流行多分类器算法来测试本算法的有效性,包括:KNN,随机森林和消极/积极的分类器算法。初步结果表明,与其他方法相比这种方法更有效。在研究的过程中,基于如何获得实用技能和知识提出了一些关键的讨论,识别潜在的观念行为,推导出行为模型,并报告兴趣的数据分析工作。进一步论文给出了特征建模的一些改进方法,以维持精确算法设计及优化,同时引入其他数据类型来帮助实现更好的系统并避免过多的复杂度。  因此,本文行为建模的研究包括以下四个阶段:(1)确定一个行为方面和必要的上下文特征作为文本数据。(2)像web-app功能服务定义的那样,通过网络与云存储收集来自用户的上下文数据。(3)使用收集的数据来执行深度机器学习,使用最适当的数据挖掘工具来分析和陈述事实。(4)评估、验证和基准测试等其他工作。本研究为通过提供现实的、理论的和经过分析的网页数据来进行机器学习,使用上下文特征的ML和RNN算法,使用模式分析工具和大数据分析进行行为建模提供了较大的参考价值。本研究在一定程度上提高了互联网服务部署的有效性,改善了普适计算和深度机器学习技术,扩展了商业模式,尤其是发展中国家的商业模式。
其他文献
面对日趋激烈的全球化市场竞争与社会化信息程度的不断提高,企业要想获得长足的发展,就必须拥有自身可靠的业务核心系统。核心系统关系到企业的生死存亡,如何在定制与实现核
商务复杂系统的建模仿真近些年得到了广泛的关注,国内外的众多公司企业、科研机构都投入了很大的精力。本文针对供应链的库存时间序列,采用的定性建模与仿真方法与以往的研究方
21世纪的社会正随着互联网和个人计算机迅速发展,得益于此,互联网上流通的信息也在不断地增长,并已经成为当今人类工作和生活中紧密联系的一部分。与此同时,由于万维网是一个
信息技术与因特网的迅猛发展为多媒体信息的存取和交换提供了极大的便利,但同时数字化技术精确、廉价、大规模的复制功能和因特网在全球传播的巨大能力,为版权保护带来了极大
网格技术是在当前各领域对计算资源和计算能力不断增长的形势下发展起来的,它是并行与分布式计算技术的一个重要方向,其目的是实现网格虚拟环境上的资源共享和协同工作。由于
电视节目的数字化是这个信息化社会发展的一个必然趋势,数字电视的设备管理系统就必不可少,而要更直观的管理数字电视设备,设备网络的拓扑信息管理不可或缺,这一功能的实现,将极大
在这个信息和科技高速发展的时代,企业的经营理念由“以产品为中心”转向“以客户为中心”的同时,企业也不断加快信息化建设的步伐,目前客户关系管理系统(CRM)已经成为帮助企业管
随着气象数据库管理系统、数据挖掘技术的发展,天气预报预测系统的研究和应用正在成为研究热点之一。天气预报预测系统能为天气预报决策者提供更好的计算机辅助决策手段,对提
当今的网络监控系统对通信网络来说具有至关重要的意义,他们周期性的收集各种网络性能数据,找出性能异常,并分析问题的根因,其效力和效率决定了网络的服务质量(quality of se
随着计算机技术的快速发展和社会需求的急剧增长,空间信息系统技术飞速发展,其应用领域在不断扩大。面对海量的空间数据及其复杂的数据特征,如何提高空间数据的查询效率成为