基于利用行为的科学数据集推荐模型构建研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:aqgcsw1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本世纪科学研究最重要的特征就是科学数据浪潮和数据密集型计算,科学数据对科学发展意义重大。随着人工智能和机器学习等技术的发展,科学数据以指数形式增长。海量数据的产生为科学研究带来大量机会的同时,也带来了巨大的挑战。用户难以从海量数据中便捷地获取有用的知识,而且重复性研究相当普遍,垃圾数据泛滥成灾。因此,在科学数据不断产生的同时,科学数据的管理与共享也成为了大家关心的问题。长期以来,科学技术文献是科学界进行交流和共享研究成果的主要方式,而科学数据依托文献这一载体通过文献引用或提及等方式达到传播与共享的效果。文献对科学数据集的引用和提及视为科学数据集利用行为。作为推动科学数据共享的主要途径,科学数据集利用行为在近几年被大量研究,却少有应用成果。学者们的研究重点主要集中在探索科学数据集的引用规范和机制上,而将利用行为应用于科学数据集智能推荐的研究较为罕见。基于以上事实,本研究以生物医学领域的期刊论文全文为研究对象,探索生物医学领域内科学数据集的利用行为。在此基础上,识别科学数据集利用行为,在识别科学数据集利用行为的基础上获取科学数据集利用行为的特征,最后根据科学数据集利用行为的特征相似度进行科学数据集推荐。本研究依托NCBI平台的文献数据资源,首先使用文献调研的方式进行科学数据集利用行为的探索。在了解文献科学数据集利用行为的基础上进行科学数据集的自动识别研究,实现对科学数据集利用行为的识别,并且对识别效果进行评价,发现识别的效果较好。紧接着在此基础上获取科学数据集利用行为的文献类型、期刊、出版时间和参与机构以及位置频次信息并分析,了解推荐模型的构建对该领域的科学数据集利用行为和共享的意义。然后获取科学数据集利用行为的研究类别、关键词、上下文和位置频次特征,基于这些利用特征的相似度来进行科学数据集推荐模型的构建。推荐模型构建完成之后,构建评价指标,并利用专家打分的方式对科学数据集推荐模型进行评价。最后根据评价指标对专家的打分结果进行计算和分析,发现本研究构建的科学数据集推荐模型的准确率(Precision)高达80%以上。但是从推荐的数据集总体相关性来看,并没有达到非常好的效果,还有完善的空间。本研究的主要工作包括以下几个方面:1.科学数据集自动识别与评价本研究首先通过文献调研的方式探索该平台存储的科学数据集在文献中的利用行为。在此基础上以NCBI资源平台的PMC数据库中的期刊论文全文为研究对象,通过读取文本、定位位置、提取内容、匹配模式、获取信息等步骤识别科学数据集利用行为,并对识别效果进行评价。2.科学数据集推荐模型构建本研究在识别科学数据集的基础上,获取科学数据集利用行为的文献类型、期刊、出版年份、参与机构和位置频次信息进行科学数据集利用行为的特征分析,了解科学数据集推荐模型构建研究对科学数据集利用行为和共享的实践意义。紧接着获取科学数据集利用行为的研究类别、关键词、上下文和位置频次特征,基于以上特征的相似度进行科学数据集推荐模型的构建。3.科学数据集推荐模型评价本研究在科学数据集推荐模型构建完成之后,构建了推荐模型的评价指标,然后通过专家打分的方式对科学数据集推荐模型进行打分,并且根据评价指标对专家的打分进行计算和分析,最后判断科学数据集的推荐效果。
其他文献
水资源是经济社会赖以生存的基础,而河北省是严重的资源型缺水省,多年水资源的主要来源于地下水。作为华北地下水超采的重点治理区域,严格控制地下水开采量,将会进一步突出水资源矛盾,其中农业用水一直是用水大户,减少农业用水量,提高农业灌溉用水效率是解决资源型缺水的关键措施之一。首先,本文对农业用水效率的的测算方法、指标选取以及影响农业用水效率的因素进行了文献综述,学者们侧重从宏观或者微观某一个层面对农业用
学位
随着国家不断深化医疗卫生事业改革,推进人民医疗卫生服务质量,各地的医疗卫生服务机构数量和规模不断扩大,加大了对符合岗位需求的医学卫生实用技能型人才特别是基层卫生服务人才的需求,这就激发了医学类高等职业院校不断改革创新,探寻符合岗位技能需求的实用技能型人才培养模式改革。本文以A校医学影像技术专业实用技能型人才培养模式改革为案例,结合国内其它具有代表性的高等职业院校为横向参考,对医学影像技术人才培养模
学位
随着经济的发展和科技的进步,果蔬采摘、搬运、分级和加工等作业正朝着机械化方向发展。在这些作业过程中,机器人通过末端执行器直接施加作用力作用在果蔬表面上,随着机械化作业的普及,导致果蔬受外力作用的机会和时间越来越多。而果蔬是粘弹性体,当作用力大于一定值后,末端执行器就会对其造成机械损伤,所以在采摘果蔬过程中能获得被抓果样的粘弹性参数具有重要意义。为了使采摘机器人在抓取水果和蔬菜的过程中可以对被抓对象
学位
八氢番茄红素合成酶(Phytoene synthase,PSY)是类胡萝卜素生物合成途径中的一个限速酶,参与了类胡萝卜素的合成,影响植物生长发育,同时类胡萝卜素又是ABA合成的前体,在植物逆境胁迫中起到了重要的作用。本研究在对棉花PSY基因的全基因组发掘、不同PSY家族成员组织器官、干旱诱导表达模式分析的基础上,进一步选取棉花GhPSY1基因开展功能分析。创制了过量表达GhPSY1基因的转基因烟草
学位
国际贸易发展带来经济增长的同时,也增加了隐含碳的排放,2001年全球贸易隐含碳排放量占CO2排放总量的比例达到25%,其中隐含碳是指进出口商品或服务在生产过程中直接和间接排放的CO2之和。目前,国际上碳排放承担机制为“生产者责任制”,这对第一出口大国的中国来说,有失公平,以美国为首的发达国家纷纷要求我国减排,加上国内环境严重恶化,走低碳经济的道路已成必然。而我国地大物博,区域间发展存在较大差异,不
学位
目的:益气养阴丸(益养丸)是中日友好医院治疗甲状腺疾病气阴两虚证的院内制剂,本研究旨在探讨益养丸联合优甲乐对分化型甲状腺癌术后患者生活质量、中医症状及治疗反应方面的临床疗效及其安全性。方法:本研究采用随机对照临床研究方法,将分化型甲状腺癌术后且中医辨证属气阴两虚的120名患者,按1:1比例随机分为两组,每组60例。对照组予常规优甲乐行TSH抑制治疗,治疗组在此基础上加服益养丸,干预3个月,用药结束
学位
大豆富含蛋白质、油脂、碳水化合物和异黄酮,作为世界上最有价值的的食用作物之一已被广泛种植。大豆对淹水胁迫较敏感,大田生产中受涝害易导致大量的产量损失。中国有东北、黄淮海、南方三大大豆产区,目前异常强降雨、暴雨、长时间降雨、灌溉后降雨、河流泛滥、过度灌溉、夏季土壤不透水等,导致这些地区出现大面积洪涝灾害。迄今对营养生长期和生殖生长期大豆耐涝性已经进行了较多研究,但对萌发期大豆的耐涝性研究相对较少。因
学位
本研究选取29个生态点(江苏省25个和毗邻的安徽滁州4个),通过稻茬小麦精量化机械条施肥条播种技术、密氮耦合技术、抗逆技术(包括镇压开沟技术及非生物逆境胁迫调节剂应用)、种子药剂处理技术、杂草“封杀结合”技术和“一喷三防”技术等技术优化与集成,分析限制稻茬小麦产量的主要栽培技术因子,明确高产高效生产技术体系下产量、效益示范效果及适用范围。同时,分析姜堰、盱眙、金坛三个代表性生态点不同生产技术体系下
学位
硫化氢(hydrogensulfide,H2S)被认为是继一氧化氮(nitricoxide,NO)和一氧化碳(carbonmonoxide,CO)之后的另一种气体信号分子。拟南芥半胱氨酸脱巯基酶1(L-cysteine desulfhydrases 1,DES1)作为产生 H2S 的重要的酶,DES1/H2S 介导的蛋白质硫巯基化修饰影响许多不同种类的蛋白质活性与功能,在细胞信号通路中具有重要的调
学位
肟菌酯(Trifloxystrobin)是甲氧基丙烯酸酯类杀菌剂的代表性的品种之一,主要用于防治作物、蔬菜和水果等农产品的真菌病害。因其在全球的使用非常广泛,从土壤、水体和农产品中都检测到肟菌酯残留,对生态环境和人类健康造成了潜在威胁。研究表明微生物在肟菌酯降解过程中发挥重要作用。目前虽然已经报道了几株肟菌酯降解菌,但是还没有关于肟菌酯降解酶和基因的报道。因此,肟菌酯的微生物降解分子机制还未被阐明
学位