基于Lucene的垂直搜索引擎关键技术的研究应用

被引量 : 15次 | 上传用户:lijie041132
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web中所容纳的信息量越来越大,在存储,信息采集等方面通用搜索引擎正面巨大的挑战。而且,由于通用搜索引擎是面向各种各样的用户,它们的目的是保证在返回结果上做到面面俱到,但是各种各样的结果实际上并不能满足用户对精确度高的搜索的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎便应运而生。和传统的搜索引擎所不同的是,垂直搜索引擎的网络蜘蛛只是采集Web中的一部分信息。通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行时就会避开大量的与主题无关的信息。由于只采集那些和主题相关的网页,从而使垂直搜索引擎在查询的准确率和效率上都有显著的提高。目前,垂直搜索引擎的中文分词和主题预测有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的覆盖率和运行效率。本文在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的主题爬行策略,既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关。此外,本文通过研究和分析传统的PageRank算法及其不足,在基于用户点击网页内的各个链接的概率是不均等的情况下,提出一种基于概率的PageRank改进算法,该算法可以用于领域搜索引擎的主题相关度预测,能有效地避免主题漂移现象。最后,基于Lucene框架和改进的Hertrix开源爬虫框架,设计并构建了一个面向电子产品信息的垂直搜索引擎的原型系统。
其他文献
本文设计了一套以NiosⅡ软核处理器为核心的基于SOPC(可编程片上系统)技术的X射线安检系统,将SOPC技术与CCD图像采集技术相结合对射线图像进行了采集处理。本文使用QuartusⅡ
6据中国铁路总公司提供的消息,12月11日,中国铁路总公司、国家旅游局、内蒙古自治区人民政府共同主办的“中国铁路旅游·祖国正北方—祖国正南方”主题推介活动在北京举办。
超大规模集成电路的飞速发展带动着信息产业不断进步,然而,由于集成度和复杂度的增加,集成电路功耗和面积的问题也日益凸显。绝热电路通过回收电路内部节点存储的电荷,实现能量的
信用证是国际贸易最常使用的支付方式,它以银行信用替代商业信用,为买卖双方提供了融资可能,极大地便利了国际贸易,被誉为“国际贸易的血液”。在信用证交易中,银行承担了在
在功能导向上,所有规则可以被分为控制性规则与促进性规则两大类别。其中,前者以对规制对象行为的控制为导向,后者则以对规制对象行为的促进为导向。统治型政府中的规则属于
每日一次,每次1.8~2Gy,每周5次的放疗方法为公认的常规分割法,其它均称为非常规分割法。非常规分割放疗分类近年来非常规分割放疗方法很多,为便于对比疗效和反应或并发症,Peters等建
可重构计算技术兼备定制化芯片的高性能和通用CPU的灵活性而日益受到学术界和产业界的关注。随着电子技术的飞速发展,目前的可重构器件已经可以支持部分动态可重构,可以满足
高校党建工作进学生公寓工作的着力点,首先应放在推动建设优良学风,促进大学生成才;其次是放在培育和发展学生的自我管理能力上;第三是放在大学生人生观、价值观的培养上。应围绕
奥苏贝尔说过:影响学习的唯一重要因素就是学生已经知道了什么,要探明这一点,并据此进行教学.这就意味着教师要密切关注学生的学习起点,并由此展开有针对性的教学活动.然而,在
由于线性自适应滤波器不能较好地逼近非线性系统,也不能利用非线性信号的高阶冗余性,在存在非线性特性的场合线性自适应滤波器性能不理想。对此非线性滤波器理论逐渐成为人们研