论文部分内容阅读
政府资助项目作为政府信息公开的一个重要组成部分,是企业全方位了解国家方针和科技政策的窗口。面对种类繁多和分布散乱的政府项目,大多数企业往往在项目搜索和查询上花费了太多时间,为此,本文提出建立政府资助项目个性化推送系统,拟解决政府与企业间信息传递障碍和信息传递滞后等问题。通过该系统企业能够快速、高效、准确的收到与自己企业领域相关的政府项目申报资讯,从而提高企业申报政府资金的成功率。为此,本文主要做了以下几方面的工作:1)政府资助项目抓取。对分散在各级政府官网的资助项目信息进行抓取。以Heritrix框架为基础,通过对Heritrix框架进行整合和扩展,为政府资助项目私人定制了抓取方式。2)项目数据解析、提取与整合。对抓取的HTML网页数据进行提取,以HTML Parser网页解析为基础,通过对Extractor进行扩展,将抓取的网页数据进行结构化处理,为下一步TF-IDF模型计算做准备。3)以微信作为推送平台,利用TF-IDF模型对文本项目和企业兴趣分别进行建模,提取其特征向量,通过余弦相似度计算,通过微信公众平台最终实现政府项目的个性化推送。4)系统性能分析。首先对项目抓取效率做了性能评估,其次对用户满意度进行了分析,最后,对个性化推送效果做了调研分析。