垂直搜索引擎联合排序相关理论与关键技术研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:yhb819
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上包含大量的农资产品供求、市场动态行情、涉农政策法规等信息,这些信息以异构的方式分散在众多的农业站点之中,面对这些没有统一形式化表达的农业信息,用户想要及时精准的获得就变的异常困难。另外,各级政府和农业科研单位及机构投入较多的资源建立关于农业技术、水产、畜牧等领域的网站、信息数据库和专家决策系统,这些信息平台只能服务于具有一定知识层次和农业技术的专业人员。而农村地区信息化建设相对落后,大部分涉农用户在信息需求分析、描述和获取方面能力匮乏。针对上述问题,本文结合我国农业信息化发展情况和农业信息特征,通过分析普通搜索引擎系统的核心原理和经典算法,从页面的内容相关度、超链接分析和用户查询行为三个主要影响检索结果的因素入手,对相关的算法进行了优化和改进,建立了一套适用于垂直搜索引擎联合排序的模型和技术方法,为河南省科学技术厅科技攻关项目《基于垂直搜索引擎的农业信息推荐关键技术研究》提供了有力的技术支持。主要研究内容及成果如下:
  (1)提出了基于内容相关度的检索模型构建方法。由于农业网站的页面通常会包含大量关于农副产品的广告、图片等无价值的信息,页面各区域包含的内容重要程度各不相同;另外,农业术语中存在很多生僻词,估算因子在进行概率计算时会出现“零概率”和“数据稀疏”问题。为了解决上述问题,本文在传统概率检索模型的基础上提出了页面不同“域”应赋予不同权值的相关度计算方法。通过Doc View模型将主题页面按照功能划分为不同的内容块进行特征要素提取,再将关键词、词频等因素考虑进去,进行数据区域分割,综合计算不同区域的特征权值。并给统计语言模型引入基于互信息的回退平滑策略,其主要思想是对互信息值较低的二元对概率进行削减,用来补偿给零概率事件。
  (2)提出了基于非悬虚节点再分类的PageRank算法优化方法。涉农用户大多数浏览的网站及搜索结果页面相对固定,基本与自己经营或种植的农产品类型相关。因此,农业类型的网站页面之间会建立很多相互指向的链接,以此来方便用户浏览,这些链接经过长期积累会形成一个密集的“嵌块结构”。基于此提出了对网页节点按照其在链接结构图中的位置和特性进行分类的方法。具体是根据节点入链和出链的区别,页面节点通常被分为两种:悬虚节点(有入链没有出链)和非悬虚节点(有入链也有出链),本文在此基础上对页面节点进行了更详细的划分,分为三种:悬虚节点、公共节点和普通节点。将划分后的链接形成的矩阵进行置换,得到了结构更简单的矩阵。进而再将维数较多的大型矩阵分解为多个子矩阵,在迭代过程中运用并行计算。当网络链接图存在块结构,并且公共节点越多时,该算法提高网页向量排序的计算速度优势越明显。
  (3)提出了基于改进查询点击图的检索推荐模型构建方法。为了改进传统查询点击二分图存在的偏置问题,本文引入点击频数来代替点击次数的改进查询点击图推荐模型。通过对二分图中元素建立形式化描述和优化目标,提高了涉农用户搜索意图在推荐结果中的权重,减少了农业网站内无关信息内容对结果的影响;并利用转移概率理论重新构建权重,使二分图所有边的权重值为整数,便于优化算法的求解,解决了传统随机游走推荐模型中易出现的“推荐主题漂移”问题。之后,采用随机过程中的马尔科夫链的平稳分布进行转移概率矩阵收敛,并通过设置适当的迭代次数和自转移概率控制图中随机游走范围,提高算法的精确度。
  (4)提出了马氏链的联合排序推荐模型构建方法。传统检索推荐模型中使用单一的排序因子导致农业网页排序依据不合理,检索系统的最终排序结果不能真正反映农业网页的特征和涉农用户的点击特点。因此,本文提出建立一个扩展性很强的监督学习框架,并以马氏链为算法核心,联合查询词与页面内容相关度、超链接分析和用户查询点击行为这三种主要因子的排序结果,将排序结果联合问题转化为一个半正定规划问题,通过监督学习的方法为每个基础排序重新获得权重系数,并且推演了问题解法的详细过程。
其他文献
配体保护的币金属纳米团簇由于其在催化、纳米科学和生物上的应用而受到广泛的关注。作为金属配合物和纳米颗粒的桥梁,纳米团簇由于其金属核心共有一定的自由电子,而形成金属-金属键。表面保护的配体不仅帮助稳定团簇免于团聚,而且对团簇结构修饰和功能化起着重要的作用。所以,不同有机配体保护的货币族金属纳米团簇的结构测定,不仅可以丰富纳米团簇的结构和性质,并且对纳米颗粒的表面的认识也有着重要的意义。目前,团簇催化
学位
现如今,受Courant-Friedrichs-Lewy(CFL)稳定性条件约束的显式时域有限差分(finite-difference time-domain)方法可以通过运用无条件稳定的隐式算法突破,实现了 CPU计算时间的降低,从而达到计算效率的提高。目前,最受欢迎的无条件稳定FDTD算法分别是交替方向隐式FDTD(alternate-direction-implicit FDTD,ADI-F
学位
光与物质在纳米限域空间相互作用的研究对表面科学和光物理都具有重要意义。本论文中我们研究两类典型限域体系中光与物质的相互作用。一类为光通过表面等离激元共振效应聚焦限域在纳米结构表面,从而特异地增强与表面分子和金属原子的相互作用,实现表面增强拉曼散射和表面等离激元增强的金属光致发光。另一类为材料自身的空间限域使得激子离域于二维平面形成二维激子,从而实现与光的强相互作用。本论文的主要研究工作如下:1.建
学位
随着科学技术的发展,各领域对固体样品中元素分析的需求越来越多,尤其在冶金、环境、地质、材料生产及控制、半导体工业、空间探索等领域。固体样品种类繁多、基体复杂,是气态、液态、固态样品中分析难度最大的样品种类。传统的溶液分析法不仅费时费力、容易引入杂质,而且使用的强酸强碱还存在一定的危险性。激光质谱法能够很好地解决上述问题,它具有分析速度快、谱图简单、分辨率高、检出限低、制样方便等一系列优点,目前已被
学位
伴随着新材料的不断涌现和实验探测表征技术的蓬勃发展,大量的研究表明非马尔可夫性和量子效应在各种新型光电、热电器件的性能调控中起着关键性的作用。为了准确高效地解析这些复杂体系的微观结构与动力学过程,本论文提出了一个针对大尺度开放量子系统的非马尔可夫随机薛定谔方程新方法。相比于密度矩阵的运动方程,该方法演化的是希尔伯特空间中的随机波函数,且便于同时考虑动态无序和静态无序,因而非常适合于高效并行计算大尺
学位
本论文的研究内容主要是设计并合成一系列的新型有机多孔聚合物,将有机多孔聚合物作为异相催化剂的配体及载体应用于有机反应中,并且首次提出有机多孔聚合物孔结构的限域效应对有机反应的选择性有明显的促进作用。研究内容主要包括以下五章:第一章:本章内容详细介绍了有机多孔聚合物及应用,分为两部分:第一部分为有机多孔聚合物的介绍及分类;第二部分为有机多孔聚合物在非均相催化反应中的应用。第二章:本章内容详细介绍了基
学位
芳香性作为有机化学中重要的概念,常用来解释化合物特殊的稳定性。Huckel规则定义了 4n+2 π-电子的平面共轭环状化合物具有芳香性,而4n π-电子化合物具有反芳香性。随着时间的推移和研究的深入,人们提出了各种芳香性概念,各种基于结构、能量、磁性、电子性质和反应性的判据也不断被提出。Baird规则指出激发态分子的芳香性和基态相反,这对于理解和开展光化学反应至关重要。但是激发态芳香性的研究较少,
学位
发展原位、快速的固体微区采样技术是分析化学的重要研究方向。相较于溶液分析,固体直接采样避免了繁琐的样品前处理、污染物引入及样品损失等风险,不仅省时省力,更重要的是保留了样品成分的空间分布信息。在元素分析领域,开展适用于发射光谱分析的固体试样剥蚀激发源的相关研究具有重要意义。其中常压放电等离子体源具有装置小巧、价格低廉、操作简易等优点,将其作为固体剥蚀激发源与发射光谱法相结合,可实现分析系统的小型化
学位
自旋交叉配合物在分子开关、分子传感器、信息存储等方面具有潜在的应用价值,因而成为磁性研究领域的热点。近三十年来,关于自旋交叉的研究取得了丰硕成果但还有很多问题没有解决,比如制备更多能够满足实际应用的自旋交叉化合物,深入理解磁-构关系来实现对自旋交叉性能的精确调控。本文将Hofmann类型自旋交叉配位聚合物作为研究对象,期待在共价键体系中通过增加超分子作用力提高协同效应从而得到具有优良自旋交叉性能的
学位
光催化技术被认为是解决未来能源危机和环境污染问题的有效途径之一。然而,作为光催化技术的核心,常见的光催化材料由于其光生电子-空穴对复合率高、太阳能利用率低和稳定性差等不足,制约了其进一步的应用。因此,设计合成出高效、宽光谱响应、稳定的新型光催化剂具有极其重要的意义。本研究以钨氧化物为研究对象,通过晶面工程、掺杂、缺陷工程和异质结构建等方法,制备了几种新型钨氧化物及其复合物光催化剂,研究了所合成的光
学位