面向实验检测交流平台的文本推荐方法研究与应用

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:xiaotian521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
石油勘探领域的现场报告和科研文献等研究资料极具科研价值,将其共享至网络平台供科研人员使用,有助于提高资料利用率。随着研究资料的逐年增加,本文关注信息获取,开展个性化推荐系统研究,实现资料的筛选和过滤。针对协同过滤推荐方法中存在的稀疏性、冷启动和样本不平衡等问题,提出改进协同过滤方法和正例样本填充方法,并应用于实验检测网络交流平台,设计实现研究资料推荐子系统。首先,针对FML(Factorized Metric Learning)推荐方法中存在的数据稀疏性、研究资料冷启动和样本不平衡问题,提出基于文本特征和距离分解的推荐方法RTDF(Recommendation method based on Textual feature and Distance Factorization)。RTDF利用文本主题特征构建研究资料的先验位置,增加对模型的约束,并在损失函数中添加用户活跃度的置信项。实验结果表明,RTDF方法能有效提升研究资料的推荐效果。其次,针对低活跃度用户推荐精度不高问题,提出基于标签信息的正例样本填充方法PFT(Positive sample Filling method based on Tag information)。对于低活跃度用户,PFT采用“用户-研究资料-标签”三元关系计算用户对研究资料的兴趣,用于从未标记样本中筛选潜在正例样本进行填充。实验结果表明,PFT方法可以有效提高低活跃度用户的推荐精度。最后,将上述方法应用于实验检测网络交流平台,设计并实现研究资料推荐子系统,帮助科研人员筛选有价值的研究资料。
其他文献
近年来,由于数据量的大幅度增长和计算机硬件水平的提升,以生成对抗网络(GAN)为主体框架的深度学习逐渐成为热点话题,并在很多领域的应用中取得较好的效果。同时,对多元时间序列数据的异常检测,无论在智能运维还是电力或网络系统监测等方面都起着至关重要的作用。基于深度学习的异常检测比传统的机器学习算法更能挖掘出数据中的特征表示,因此将GAN应用于多元时间序列的异常检测是一个非常重要的研究方向。本文工作主要
实体关系抽取是信息抽取的核心任务之一,其目标是从文本中识别实体并抽取出实体间的语义关系。实体关系抽取是构建知识库、知识图谱的重要步骤,在智能问答、基于关系的搜索引擎和机器翻译中应用广泛。然而,相较于通用领域,油气勘探领域的实体关系抽取面临着缺少训练数据的挑战。人工标注训练数据代价昂贵并且目前已有的标注方法无法自动化标注大量高质量的训练数据。另一方面,油气勘探领域实体和关系种类多样,难以预定义全部的
随着我国在工业领域的高速发展,危险气体意外泄漏扩散引发的火灾、爆炸以及造成人员伤亡等事故发生的频率也在不断增加。在气体扩散模拟分析中,计算流体动力学对计算机的要求限制了它的应用,本文建立了计算流体动力学的代理模型来预测气体浓度随时间的变化趋势以及预测气体的空间分布特征,研究主要从以下三个方面展开。首先利用随机Hamersley采样设计输入变量的值,从而实现利用较少的样本点实现空间更好的覆盖效果。基
从卫星地图准确标注出建筑物地基轮廓在地理信息勘测、区域建筑规划等领域等方面的工作中有着重要的意义。但是由于卫星拍摄图像时会带有一定角度,图像中建筑物位置会与其地基轮廓位置产生偏差,传统图像语义分割方法基于图像的像素值进行划分,只能得到建筑物图像,无法得到建筑物地基轮廓。同时由于卫星图像数据来源较少,数据集获取较为困难,数据集中卫星图像涵盖的拍摄角度也十分有限,这会导致语义分割模型无法得到充分训练。
信道估计的好坏在很大程度上决定了整个通信系统性能的优劣,一直是无线通信系统研究的热点问题。信道估计能够获知信道的状态信息,通过对接收端数据进行补偿以恢复出原始数据,从而提高整个通信系统的传输性能。随着无线通信业务的爆炸式增长,信道环境日趋复杂化,人们对通信系统的要求也越来越高。在复杂信道条件下,如何使信道估计更为准确,已经成为目前研究的新热点,特别是在面向未来的智能通信中,新老技术的结合无疑是国内
客观对象可抽象表达为数据样本,而数据样本维度的增长导致其表达信息的复杂程度在不断提高,另一方面,客观对象往往存在着多义性,因此,多标签的特征选择是数据挖掘和模式识别等领域研究和应用的热点之一。其旨在剔除无关特征和冗余特征,从而提高学习效率、优化模型性能等。本文提出了UN-MLFSPO算法,通过希尔伯特-施密特独立性准则(HSIC)度量特征和标签之间的关联程度,然后在展开的高维空间中使用帕累托最优原
近年来,我国深化改革力度不断加强,环境保护受到了越来越多的关注。石油炼化企业需要相应地提高环境管理水平,保障生产过程符合相应的政策要求,杜绝重大环境污染事件发生。催化裂化装置是炼化企业主要污染物排放源,并且催化裂化反应机理复杂,污染物的排放存在不确定性。如何根据催化裂化装置的生产要素和历史排污数据,预测其未来的变化趋势,减少排污的不确定性变得非常重要。有效的污染物排放预测可以为石油炼化企业生产计划
近年来,天然气越发在国民经济中占据重要地位,然而,从理论研究出发继而推导出相关结论再应用于实践指导这样的传统思路,越来越跟不上行业的发展步伐,严重制约了气田和气井的开发。本文应用先进的大数据技术,让数据指导实践,通过对石油天然气勘探开发过程中产生的大量数据进行分析,可以为实际勘探开发提供快速指导和决策支持。研究中采用Python语言结合机器学习技术对实际气田的大量数据进行了提取、处理、建模、分析和
卫星图像语义分割是指将卫星图像中有价值的信息进行标注。由于卫星图像的规模庞大,其中包含的信息也很丰富,需要通过图像分割算法从这些大规模卫星图像中快速提取出有效信息。然而现有的图像分割算法仅支持小规模图像分割,无法对大规模图像直接进行分割。为了解决大规模图像分割问题,本文研究并设计了大规模卫星图像语义分割系统,并且从以下三个方面进行了研究与探索。首先将大规模图像裁剪成若干张符合图像分割算法输入要求的
水下油气生产过程虚拟现实仿真平台应用虚拟现实技术通过水下动力学仿真与多个仿真系统之间的集成,实现对工作人员的虚拟操作培训。针对该平台中数据难以有效管理的问题,在本文的研究中首次将时空数据库技术应用于虚拟现实仿真系统,开发了一套适用于该虚拟现实仿真平台的数据管理系统,主要研究内容如下:(1)对水下油气生产过程虚拟现实仿真平台进行了数据流分析。对数据管理系统进行需求分析和基于C/S架构的总体设计,构建