论文部分内容阅读
本文以东华大学教育资源搜索引擎为研究背景,该搜索引擎主要检索东华大学站内信息和全国各高校的招生信息及其精品课程信息。它不仅可以方便在校师生查找校内信息,也可以为其他学校师生和社会人士查找各高校的招生信息以及精品课程信息提供高效服务。本文主要研究两方面内容,一方面是研究Web页面的自动摘要技术。研究目标是摘要既能很好的概括页面主题又能同时考虑用户的查询词;另一方面是分析用户的查询日志,主要是通过分析用户的查询日志向用户提供查询建议,其目的是帮助用户更准确地描述需求信息。文本摘要技术既可以压缩文本,减少用户的浏览负担,又可以为其他文本处理技术提供支持,逐渐成为国内外研究的热点。本文研究了基于统计的自动摘要方法对Web页面生成摘要。其中涉及文本结构分析、关键词提取、句子重要度计算和摘要生成等关键技术。由于本文是对Web页面生成摘要,因此摘要的生成也要考虑用户输入的查询词。句子重要度的计算分为两部分:仅考虑文本信息的句子重要度计算和结合查询词的句子重要度计算,其中,第一部分可以事先计算以提高摘要生成的效率。最后,删除冗余句子后提取重要度高的句子作为摘要。在计算句子重要度时需要考虑多方面因素,需要对多个影响因素进行加权平均。本文主要通过遗传算法训练加权系数。由于个体的适应值差异较小,为了提高优秀个体的选择概率,对遗传算法的选择算子进行了改进。遗传算法易于出现早熟收敛,当种群出现早熟收敛时,利用逻辑斯谛方程,以当前种群多个最优个体作为初始值,重新生成种群,使种群恢复多样性,同时保留最优个体。为了提升用户体验度,帮助用户准确描述需求信息,可以通过挖掘用户查询日志,对相关查询词进行聚类。在用户提交查询请求后,搜索引擎在返回结果记录时同时返回相关查询建议。本文分析了K-Means聚类算法,并对算法存在的问题进行了深入的分析,然后针对这些问题提出了解决方法,进一步利用修改后的K-Means算法对用户查询日志进行聚类。在聚类时,距离的计算不仅考虑URL之间的欧式距离,同时还考虑了查询词之间的相似性。系统根据用户提交的查询词,查找所属类,并返回与当前查询词最相关的查询词作为查询建议。为了验证算法的有效性,本文利用修改后的算法对人工分类好的数据进行聚类,结果发现算法取得了很好的效果。最后,本文利用遗传算法训练语料库中的文本,得到影响因素的加权系数,然后利用得到的加权系数对一篇Web页面生成摘要,该摘要结果能很好的概括文本主题。实验通过分析用户查询日志,并利用修改后的聚类算法对查询词进行聚类,结果表明,推荐查询词与查询词的相关度较大。