摘要技术和查询行为分析在高校搜索引擎中的应用与研究

来源 :东华大学 | 被引量 : 1次 | 上传用户:bingyuziqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以东华大学教育资源搜索引擎为研究背景,该搜索引擎主要检索东华大学站内信息和全国各高校的招生信息及其精品课程信息。它不仅可以方便在校师生查找校内信息,也可以为其他学校师生和社会人士查找各高校的招生信息以及精品课程信息提供高效服务。本文主要研究两方面内容,一方面是研究Web页面的自动摘要技术。研究目标是摘要既能很好的概括页面主题又能同时考虑用户的查询词;另一方面是分析用户的查询日志,主要是通过分析用户的查询日志向用户提供查询建议,其目的是帮助用户更准确地描述需求信息。文本摘要技术既可以压缩文本,减少用户的浏览负担,又可以为其他文本处理技术提供支持,逐渐成为国内外研究的热点。本文研究了基于统计的自动摘要方法对Web页面生成摘要。其中涉及文本结构分析、关键词提取、句子重要度计算和摘要生成等关键技术。由于本文是对Web页面生成摘要,因此摘要的生成也要考虑用户输入的查询词。句子重要度的计算分为两部分:仅考虑文本信息的句子重要度计算和结合查询词的句子重要度计算,其中,第一部分可以事先计算以提高摘要生成的效率。最后,删除冗余句子后提取重要度高的句子作为摘要。在计算句子重要度时需要考虑多方面因素,需要对多个影响因素进行加权平均。本文主要通过遗传算法训练加权系数。由于个体的适应值差异较小,为了提高优秀个体的选择概率,对遗传算法的选择算子进行了改进。遗传算法易于出现早熟收敛,当种群出现早熟收敛时,利用逻辑斯谛方程,以当前种群多个最优个体作为初始值,重新生成种群,使种群恢复多样性,同时保留最优个体。为了提升用户体验度,帮助用户准确描述需求信息,可以通过挖掘用户查询日志,对相关查询词进行聚类。在用户提交查询请求后,搜索引擎在返回结果记录时同时返回相关查询建议。本文分析了K-Means聚类算法,并对算法存在的问题进行了深入的分析,然后针对这些问题提出了解决方法,进一步利用修改后的K-Means算法对用户查询日志进行聚类。在聚类时,距离的计算不仅考虑URL之间的欧式距离,同时还考虑了查询词之间的相似性。系统根据用户提交的查询词,查找所属类,并返回与当前查询词最相关的查询词作为查询建议。为了验证算法的有效性,本文利用修改后的算法对人工分类好的数据进行聚类,结果发现算法取得了很好的效果。最后,本文利用遗传算法训练语料库中的文本,得到影响因素的加权系数,然后利用得到的加权系数对一篇Web页面生成摘要,该摘要结果能很好的概括文本主题。实验通过分析用户查询日志,并利用修改后的聚类算法对查询词进行聚类,结果表明,推荐查询词与查询词的相关度较大。
其他文献
低秩矩阵近似,是机器学习、数值优化、理论计算机科学等领域的重要研究方向。它既有严格的理论基础,在实际问题中,也有着广泛的应用。低秩矩阵近似的本质是利用高维空间中的
云计算使用海量资源快速为用户部署和执行资源密集型任务,但是一批新应用在要求大量计算资源的同时,也需要极低的交互延迟。由于广域网的限制,用户设备与云数据中心的交互延
随着现代科技的飞速发展,手机的存储容量快速增大,手机中存储数据的种类和数量也成爆炸式增加,如何快速、准确的将用户需要的信息呈现出来成为一个急需解决的问题。然而由于
当前,多媒体应用越来越广泛,多媒体技术发展迅速。视频编码技术深入生活的方方面面。随着高清技术的发展,高清终端显示设备的应用越来越多,而标清视频广泛存在在视频的各种资
数据仓库作为一种分析型的数据环境,越来越受到人们的重视。数据仓库与操作型数据库环境相分离。相对于操作型环境而言,分析型环境对数据查询的速度提出了更高的要求。相对于
贝叶斯学习作为机器学习的重要分支,为解决数据的建模问题提供了一种重要的方法。其中的稀疏贝叶斯学习算法凭借其概率的预测和稀疏的模型等特点,成为机器学习中的经典算法之
问答是自然语言处理和信息检索领域的一个重要研究分支,它融合了多种自然语言处理和信息检索的相关技术,是比搜索引擎更人性化的向人们提供所需信息的一种手段。受社会的不断进
随着H.265、AVS 2等新一代视频编码标准制定工作在国际和国内的同步展开,视频编码技术正在步入新的快速发展阶段。新一代视频编码标准对混合编码框架的性能提出了更高的要求
随着信息时代数据规模急剧增长,信息量不断激增,数据信息已成为人类宝贵的财富,数据的价值已经远远超过了计算机系统本身的价值;另一方面,各种不确定因素又使得数据极易丢失,
近年来,嵌入式系统在工业控制、信息家电、汽车等领域得到了广泛地应用。嵌入式系统对功能、可靠性、实时性、成本、体积和功耗等方面有严格要求,大大增加了其开发的复杂和困