【摘 要】
:
文献的收集、整理和分析是许多科学研究工作的先导步骤,文献数量的激增以及庞大的科研群体带来了文献分析的迫切需求。为了适应新时代海量文献分析需求,本文以中国知网收录的中外文文献为对象构建了一个全自动文献分析系统Hello Paper。用户输入检索条件后,Hello Paper将自动完成文献收集、整理和分析工作,并向用户呈现一份图文并茂的文献分析报告。本文首先探究了文献分析系统领域的研究现状,我们发现国
论文部分内容阅读
文献的收集、整理和分析是许多科学研究工作的先导步骤,文献数量的激增以及庞大的科研群体带来了文献分析的迫切需求。为了适应新时代海量文献分析需求,本文以中国知网收录的中外文文献为对象构建了一个全自动文献分析系统Hello Paper。用户输入检索条件后,Hello Paper将自动完成文献收集、整理和分析工作,并向用户呈现一份图文并茂的文献分析报告。本文首先探究了文献分析系统领域的研究现状,我们发现国内外虽已有不少文献分析系统方面的研究,但暂时还找不到一个集合文献收集、整理和分析全流程的全自动文献分析系统。为此,我们从系统的核心功能即文献分析出发,设计了一种宏观分析与微观分析相结合的文献分析框架。其中文献宏观分析帮助用户了解研究概貌,文献微观分析帮助用户探究研究内容。在这一框架基础上,我们针对文献微观分析的需求设计了一种定量与随机相结合的文献推荐机制,即在进行文献推荐时不仅做基于定量指标的推荐,而且做随机的推荐。在这一推荐机制基础上,针对基于定量指标的推荐,我们又设计了一种综合考虑文献自身、文献作者、文献刊物、文献参考文献和文献引证文献影响力的文献质量评价指标体系,并基于指标体系的设计原则和皮尔逊相关系数对评价指标体系的合理性作了阐述。基于上述这些设计,我们给出了Hello Paper的架构。Hello Paper由爬虫模块、预处理模块、分析模块、图形化界面模块和日志模块构成并由Python实现。其中:爬虫模块负责文献数据的获取;预处理模块负责文献数据的预处理;分析模块负责预处理后文献数据的分析;图形化界面模块负责与用户进行交互,接收用户输入的检索条件,并告知用户系统运行结果;日志模块负责记录爬虫模块、预处理模块、分析模块和图形化界面模块的运行过程,用以监测程序的运行状况和发现程序的问题。在分析模块,我们将指标评价、统计图形和聚类等统计方法应用于文献的宏观与微观分析。最后,本文借助Hello Paper提供的文献分析报告和文献数据对作为重要数据获取技术的爬虫在国内的研究与应用现状作了阐述。
其他文献
Fenton氧化技术在工业废水处理中虽然能达到较好的效果,但该技术一般要求反应pH值在3左右,导致在废水处理前后均需调节pH值,这使得Fenton氧化技术适用性受限的同时也会对反应器造成腐蚀,加大经济损耗。另外,Fe3+向Fe2+转换的速率较慢以及H2O2的自我分解导致Fenton试剂利用率较低,降低了Fenton氧化效果。为强化Fenton氧化效果,本论文利用过氧化钙(CaO2)的强氧化性来增强
厌氧暗发酵制氢能够以高浓度有机废水为原料产生氢能,应用前景广阔;但该方法受到废水盐分及种类等多种因素的影响,限制了厌氧生物制氢的发展;硝酸盐在食品加工等多种高浓度有机废水中广泛存在,因此,本文利用课题组筛选得到的一株高效厌氧产氢菌Enterobacter sp.HDX08(简称:菌HDX08),研究不同NaNO3浓度对其厌氧产氢性能的影响;通过对ORP、辅酶NADH、关键酶活、中间产物、氮平衡计算
近年来,大量研究表明,对microRNA的研究有助于人类复杂疾病的预防、诊断和治疗。microRNA参与许多关键的生物学过程,也是人类复杂疾病的发病机制,这表明识别microRNA与疾病的关联可以使我们在microRNA水平上了解疾病。因此,揭示越来越多的microRNA与疾病的潜在联系是生物医学领域的一个重要课题。由于利用传统生物实验检查所有可能的microRNA-疾病关联所需的资源和时间成本昂
随着新一代测序技术的高速发展,人们可以在短时间内得到大量的原始生物序列,其中就包含非编码RNA序列。非编码RNA(non-coding RNAs,nc RNAs),是指不能翻译为蛋白质的RNA,长非编码RNA(long non-coding RNAs,lnc RNAs)是长度大于200个核苷酸的nc RNAs。Lnc RNA在细胞生长凋亡、疾病调控和遗传表达等方面发挥着重要的作用。从海量序列中精准
全球经济快速发展对能源的需求日益增加,化石能源在逐渐枯竭,同时也造成环境问题,故开发清洁可再生能源很有必要。近年来,生物柴油因其环保和可再生性受到关注,但第一代生物柴油(FAME)由于氧含量高而影响其热值,故有必要对第一代生物柴油进行加氢脱氧产品升级。本论文以月桂酸甲酯为模型化合物研究脂肪酸酯类化合物的加氢脱氧反应,分别构建了三种高选择性的Ni基催化剂,实现了对月桂酸甲酯加氢脱氧路径的有效调控。主
我国在经济、资源等方面发展不平衡问题一直是发展过程中面临的一大难题,当然,我国保险业发展也面临着这个难题.为实现我国各省保险业持续平衡发展以及实现我国保险业不断壮大的目标,需要更精准的对我国各省保险行业发展水平进行评价分析.本文主要讨论我国省域保险行业发展水平,合理定位我国各省保险行业发展水平之间的差异.首先,在阅读大量文献和总结前人经验的基础上,厘清保险行业发展现状和评判标准,依据指标体系建立原
具有“重尾”特性的数据广泛存在于我们的生活中,如金融、保险领域的数据,往往呈现尖峰厚尾的特征.但就这类数据而言,普通的单一模型不能很好地拟合极端数据,而广义帕累托分布虽然对尾部数据的拟合较为有效,却又难以描述整体数据.因此近年来出现了不少改进的组合模型,能够较好地拟合尖峰厚尾数据.本文对Logistic函数进行改进,与广义帕累托分布组合成新模型,并以洪水损失数据与股票收益率数据为样本,分别进行数据
考虑非线性Caputo-Fabrizio(C-F)分数阶微分方程初值问题(?)这里0<α0是给定的常数,0CF Dtαy(t)为α阶C-F分数阶导数,f:[0,T]×Rd→Rd是连续映射,且满足单边Lipschitz条件≤σ‖y1-y2‖2,(?)t ∈[0,T],y1,y2∈Rd,其中σ是实常数.通过应用插值型求导公式逼近一阶导数,进而得到
非视距成像就是利用重建或识别技术,对不在直接视线内的物体进行成像。其在医学成像、自动驾驶、机器人视觉等领域具有潜在的应用。在一些实际场景中,通常会优先使用识别技术进行非视距成像,因为其可以直接、快速的对隐藏物体进行分类。现有的非视距识别技术大多是依靠主动激光探测手段实现的,然而拥有简便系统及良好隐蔽性的被动式非视距识别技术还未被研究过。本文使用由标准数码相机和挡板组成的被动式成像实验设置,结合深度
高质量的农业统计数据能够为乡村振兴的精准施策保驾护航,湖南省位于长江中下游平原稻作区的单双季稻亚区,既是稻谷的主要产区,也是主要消费地区。2019年稻谷播种面积占农作物播种面积比例为49.44%,但近几年整体呈下降趋势,这对于粮食安全必将产生深远的影响。因此研究稻谷产量数据质量具有十分重要的现实意义。1988年,随着我国杂交水稻的大面积推广,稻谷亩产量较此之前有了很大提升,本文特选取1988-20