论文部分内容阅读
随着Internet/Intranet的迅速发展,基于WWW的网上信息的收集,发布及查询检索等事务处理为信息社会带来了全新的概念。于是基于Internet/Intranet的信息处理也就日益成为人们关注的焦点。在这种背景下,信息推送技术应运而生。推送技术的本质在于让信息主动的去寻找用户,因此其优势在于信息的主动性。通过使用该技术,可以主动的将信息推送到用户面前;其弱势在于信息的准确性比较差,由于简单的筛选机制取代了人工的选择,必然会使推送的信息和用户的需求之间存在一定的差异。推送技术在Internet上没有取得成功,原因是多方面的。对于网络信息提供商(ISP)来说,一方面因为它的用户类型太复杂;另一方面由于受到带宽的限制而无法成功的进行信息推送。而在一个单位或者部门,由于组内用户的兴趣是接近的,因此有实现信息推送的可能性。 为此,我们对“基于局域网的信息推送系统”进行研究。所做的工作如下:首先,利用基于实例的方法得到了一个组的兴趣,并建立对应的兴趣模型;其次,利用现有的搜索引擎技术根据该组提交的查询关键词得到文档集。使用向量空间模型将用户的兴趣以及得到的文档表示成为向量形式{(k1,v2),(k2,v2)…(kn,vn)},并使用夹角余弦公式计算两者之间的相似度,将相似度最大的前N篇文档推送给用户。最后,在用户反馈单元,使用了算术平均和证据理论两种方法来处理用户的反馈。目的在于将组内所有用户的兴趣进行综合,得到对文档的一个综合评价,以便更好的修改初始的profile,以期提高推送的准确率。 进一步的工作:1.尝试使用别的方法来计算群体兴趣以及文档中关键词的权重;2.检验是相似度值还是推送的文档数目作为过滤指标对提高用户的满意度更好;3.进一步完善基于局域网的信息推送系统的功能。