【摘 要】
:
互联网已经成为人们获取各类信息的重要来源。然而,急剧增长的互联网信息也给人们带来了信息过载问题的困扰。作为一种能够解决信息过载并满足专业领域信息需求的方法,面向主
论文部分内容阅读
互联网已经成为人们获取各类信息的重要来源。然而,急剧增长的互联网信息也给人们带来了信息过载问题的困扰。作为一种能够解决信息过载并满足专业领域信息需求的方法,面向主题的信息整合技术逐渐成为研究的热点。信息整合技术能够将位于不同信息源分散的主题信息进行整合并提供信息服务。因此,作为基于网络的信息整合和信息服务的关键技术,高效精准的信息源发现和分类技术的研究显得尤为重要。本文面向高端装备制造产业(high-end equipment manufacturing industry,HEMI)信息服务和国家两化融合课题的实际需求,对HEMI信息源的自动发现和分类技术展开研究。由于人工获取HEMI信息源存在任务量大、效率低、难以满足实时需求等不足,因此,目前亟需一种信息源的自动发现方法。本文通过调研已有的信息源发现相关技术,并结合HEMI网站的特点,提出了一种基于分布式表示的HEMI信息源及与其相关专题栏目的自动发现方法。首先,结合两种不同的分布式表示方法来扩展查询关键词;其次,通过网页的分布式表示来计算其与查询关键词的相关度;然后,根据栏目下相关网页的占比是否超过某一阈值以判断该栏目是否为HEMI信息源。其中,本文在计算网页相关度时提出一种基于双向LSTM和分布式表示的网页相关度计算方法;最后,本文采用CNN和RCNN模型对上一步骤中的相关栏目下的网页正文进行分类。实验结果表明:(1)基于双向LSTM和分布式表示的网页相关度计算方法在性能上显著优于向量空间模型和LDA模型,有效提升了网页相关度计算的准确率;(2)相比于CNN,RCNN模型在本文的HEMI信息源分类任务上能获得更佳的效果,F1值达到90%以上。
其他文献
电子级多晶硅是制造半导体芯片和大规模集成电路最基础的材料,对我国电子、信息和国家安全领域具有重大意义。电子级多晶硅对产品纯度、杂质控制的要求非常苛刻,其主要影响因素是两种原料即三氯氢硅和循环氢气的纯度,三氯氢硅纯度问题现已基本解决,但循环氢气提纯问题至今没有重大突破。另外,多晶硅还原步骤中,氢气与三氯氢硅原料比为3-10:1,可见循环氢中痕量杂质对高纯电子级硅材料制备影响更大。循环氢中极难去除的磷
社会保险经办服务体系的建设,不仅直接关系到社会保险政策的贯彻落实,也直接关系到广大参保人员的权益保障,更关系到全面建成覆盖城乡居民的社会保障体系目标的实现。然而,长
油田注水作为油田开发中重要的一环,决定着采油的产量和效率。目前,国内很多油田尤其是小型油田仍旧使用人工调节的方式,容易出现注水数据整合困难以及设备控制的信息滞后等问题。为解决上述问题,本文设计了一种集注水信息采集、远程显示及在线控制于一体的油田智能注水系统。首先,在深入研究了油田智能注水监控发展现状的基础上,根据项目功能需求设计了系统的总体方案,分析了云服务器数据中心软件的结构功能,并规划上位机软
当今企业间的竞争日益加剧,而这种竞争关系已不仅仅局限于单个企业之间的实力对比,更是扩展到整个供应链间的竞争。供应商的质量也成为供应链竞争的重要因素,而汽车行业是这
近年来,畜禽养殖废水中残留抗生素类药物引起的污染问题日益突出。作为难降解有机污染物,传统的物化法、生物法对抗生素类药物的处理效果并不理想。本文以常见经典兽用抗生素——磺胺嘧啶为研究对象,以直流电或太阳能为驱动电源,通过制备的Pd/CeO_2催化剂将阴极(石墨)、阳极A(Pt板)电解水产生H_2、O_2催化合成H_2O_2,同时利用阳极B(铁板)产生的Fe2+来构建原位电芬顿体系,并以此去除模拟废水
长期摄入高脂膳食易使机体产生过多自由基,并长期处于过度氧化应激状态,增加患肥胖、糖尿病等慢性病的风险。花色苷抗氧化、抗肥胖的生理功能日益受到人们关注。本文研究了花
异丁醇是一种具有潜力的新型生物能源和平台化合物,并广泛应用于能源、食品、工业和医药等诸多领域。微生物发酵生产异丁醇受到人们的广泛关注,通过利用宿主菌自身的α-酮异
麦麸是一种资源丰富且价格低廉的农副产品,含有丰富的膳食纤维及其他生物活性成分,但由于其加工适应性差、口感粗糙,主要作为饲料附加值较低。因此开发出一种健康、新型的麦
变压器是电力系统中的重要部件,它的运行状态直接关系到电网稳定。变压器运行状态分析对故障预测,保障电网正常运转具有重大意义。本文使用的是国网**供电公司提供的主变运行