论文部分内容阅读
互联网上包含大量的农资产品供求、市场动态行情、涉农政策法规等信息,这些信息以异构的方式分散在众多的农业站点之中,面对这些没有统一形式化表达的农业信息,用户想要及时精准的获得就变的异常困难。另外,各级政府和农业科研单位及机构投入较多的资源建立关于农业技术、水产、畜牧等领域的网站、信息数据库和专家决策系统,这些信息平台只能服务于具有一定知识层次和农业技术的专业人员。而农村地区信息化建设相对落后,大部分涉农用户在信息需求分析、描述和获取方面能力匮乏。针对上述问题,本文结合我国农业信息化发展情况和农业信息特征,通过分析普通搜索引擎系统的核心原理和经典算法,从页面的内容相关度、超链接分析和用户查询行为三个主要影响检索结果的因素入手,对相关的算法进行了优化和改进,建立了一套适用于垂直搜索引擎联合排序的模型和技术方法,为河南省科学技术厅科技攻关项目《基于垂直搜索引擎的农业信息推荐关键技术研究》提供了有力的技术支持。主要研究内容及成果如下:
(1)提出了基于内容相关度的检索模型构建方法。由于农业网站的页面通常会包含大量关于农副产品的广告、图片等无价值的信息,页面各区域包含的内容重要程度各不相同;另外,农业术语中存在很多生僻词,估算因子在进行概率计算时会出现“零概率”和“数据稀疏”问题。为了解决上述问题,本文在传统概率检索模型的基础上提出了页面不同“域”应赋予不同权值的相关度计算方法。通过Doc View模型将主题页面按照功能划分为不同的内容块进行特征要素提取,再将关键词、词频等因素考虑进去,进行数据区域分割,综合计算不同区域的特征权值。并给统计语言模型引入基于互信息的回退平滑策略,其主要思想是对互信息值较低的二元对概率进行削减,用来补偿给零概率事件。
(2)提出了基于非悬虚节点再分类的PageRank算法优化方法。涉农用户大多数浏览的网站及搜索结果页面相对固定,基本与自己经营或种植的农产品类型相关。因此,农业类型的网站页面之间会建立很多相互指向的链接,以此来方便用户浏览,这些链接经过长期积累会形成一个密集的“嵌块结构”。基于此提出了对网页节点按照其在链接结构图中的位置和特性进行分类的方法。具体是根据节点入链和出链的区别,页面节点通常被分为两种:悬虚节点(有入链没有出链)和非悬虚节点(有入链也有出链),本文在此基础上对页面节点进行了更详细的划分,分为三种:悬虚节点、公共节点和普通节点。将划分后的链接形成的矩阵进行置换,得到了结构更简单的矩阵。进而再将维数较多的大型矩阵分解为多个子矩阵,在迭代过程中运用并行计算。当网络链接图存在块结构,并且公共节点越多时,该算法提高网页向量排序的计算速度优势越明显。
(3)提出了基于改进查询点击图的检索推荐模型构建方法。为了改进传统查询点击二分图存在的偏置问题,本文引入点击频数来代替点击次数的改进查询点击图推荐模型。通过对二分图中元素建立形式化描述和优化目标,提高了涉农用户搜索意图在推荐结果中的权重,减少了农业网站内无关信息内容对结果的影响;并利用转移概率理论重新构建权重,使二分图所有边的权重值为整数,便于优化算法的求解,解决了传统随机游走推荐模型中易出现的“推荐主题漂移”问题。之后,采用随机过程中的马尔科夫链的平稳分布进行转移概率矩阵收敛,并通过设置适当的迭代次数和自转移概率控制图中随机游走范围,提高算法的精确度。
(4)提出了马氏链的联合排序推荐模型构建方法。传统检索推荐模型中使用单一的排序因子导致农业网页排序依据不合理,检索系统的最终排序结果不能真正反映农业网页的特征和涉农用户的点击特点。因此,本文提出建立一个扩展性很强的监督学习框架,并以马氏链为算法核心,联合查询词与页面内容相关度、超链接分析和用户查询点击行为这三种主要因子的排序结果,将排序结果联合问题转化为一个半正定规划问题,通过监督学习的方法为每个基础排序重新获得权重系数,并且推演了问题解法的详细过程。
(1)提出了基于内容相关度的检索模型构建方法。由于农业网站的页面通常会包含大量关于农副产品的广告、图片等无价值的信息,页面各区域包含的内容重要程度各不相同;另外,农业术语中存在很多生僻词,估算因子在进行概率计算时会出现“零概率”和“数据稀疏”问题。为了解决上述问题,本文在传统概率检索模型的基础上提出了页面不同“域”应赋予不同权值的相关度计算方法。通过Doc View模型将主题页面按照功能划分为不同的内容块进行特征要素提取,再将关键词、词频等因素考虑进去,进行数据区域分割,综合计算不同区域的特征权值。并给统计语言模型引入基于互信息的回退平滑策略,其主要思想是对互信息值较低的二元对概率进行削减,用来补偿给零概率事件。
(2)提出了基于非悬虚节点再分类的PageRank算法优化方法。涉农用户大多数浏览的网站及搜索结果页面相对固定,基本与自己经营或种植的农产品类型相关。因此,农业类型的网站页面之间会建立很多相互指向的链接,以此来方便用户浏览,这些链接经过长期积累会形成一个密集的“嵌块结构”。基于此提出了对网页节点按照其在链接结构图中的位置和特性进行分类的方法。具体是根据节点入链和出链的区别,页面节点通常被分为两种:悬虚节点(有入链没有出链)和非悬虚节点(有入链也有出链),本文在此基础上对页面节点进行了更详细的划分,分为三种:悬虚节点、公共节点和普通节点。将划分后的链接形成的矩阵进行置换,得到了结构更简单的矩阵。进而再将维数较多的大型矩阵分解为多个子矩阵,在迭代过程中运用并行计算。当网络链接图存在块结构,并且公共节点越多时,该算法提高网页向量排序的计算速度优势越明显。
(3)提出了基于改进查询点击图的检索推荐模型构建方法。为了改进传统查询点击二分图存在的偏置问题,本文引入点击频数来代替点击次数的改进查询点击图推荐模型。通过对二分图中元素建立形式化描述和优化目标,提高了涉农用户搜索意图在推荐结果中的权重,减少了农业网站内无关信息内容对结果的影响;并利用转移概率理论重新构建权重,使二分图所有边的权重值为整数,便于优化算法的求解,解决了传统随机游走推荐模型中易出现的“推荐主题漂移”问题。之后,采用随机过程中的马尔科夫链的平稳分布进行转移概率矩阵收敛,并通过设置适当的迭代次数和自转移概率控制图中随机游走范围,提高算法的精确度。
(4)提出了马氏链的联合排序推荐模型构建方法。传统检索推荐模型中使用单一的排序因子导致农业网页排序依据不合理,检索系统的最终排序结果不能真正反映农业网页的特征和涉农用户的点击特点。因此,本文提出建立一个扩展性很强的监督学习框架,并以马氏链为算法核心,联合查询词与页面内容相关度、超链接分析和用户查询点击行为这三种主要因子的排序结果,将排序结果联合问题转化为一个半正定规划问题,通过监督学习的方法为每个基础排序重新获得权重系数,并且推演了问题解法的详细过程。