论文部分内容阅读
随着人类社会迈入信息时代,网络已经渗透到大众生活的方方面面,在人们生活中发挥着越来越重要的作用。然而,要在数据量急剧增长的网络上获取自己所需要的精确信息,却变得愈加困难。面对规模庞大而又飞速增长的网络空间,人工浏览显然已无法满足人们对信息和知识的渴求,搜索引擎便成为人们从网络获取有用数据的重要途径,在人们日常生活和工作中发挥着越来越重要的作用。垂直搜索引擎即是针对某一特定行业领域的专业搜索工具,可向用户提供准确、及时、完整的行业领域信息。通过与外省政策对比研究,定位我省科技创新活动中存在的问题,挖掘并筛选出我省科技创新政策需求信息,即筛选出“人有我无”的政策法规或者同质政策的不同内容,为我省科技创新政策法规制定过程中的问题界定和方案设计择优环节提供借鉴参考。本文基于已开发完成的政策信息垂直搜索引擎,继而新增了“人有我无”搜索、政策舆情搜索、英文政策检索三大功能模块。本文首先介绍了实现中英文搜索引擎的理论基础和主要技术,然后介绍在“人有我无”搜索模块中两个文本分类的相关算法的应用和改进。改进的两个算法分别是:1)基于词共现的政策文本关键词抽取算法:本文结合政策文本成文规律对基于词共现关键词抽取算法中计算共现词关键度的两个重要系数α、β进行了动态计算的调整,使关键词的抽取更加符合文章大意,降低了在政策文本关键词抽取中漏取低频的关键词概率;2)在文本分类算法研究中改进了基于特征词加权的计算关键词相似度阈值的方法:本文结合政策文本特征词的权值分布规律对相似度阈值进行动态计算,使文本分类中特政词的相似度更加符合实际情况。对改进后算法与传统算法进行了比较实验,实验结果表明改进后的算法性能优于传统算法。最后介绍系统的整体设计和各个模块的设计与实现,并对所有模块进行了功能测试测试结果显示各模块功能实现良好,能都达到使用要求。