【摘 要】
:
由于通用搜索很难满足个性化和专业化的需求,垂直搜索应运而生。垂直搜索能提供给人们更相关的信息。本文对中文垂直搜索中的几个关键技术进行论述,并设计实现了一个简单的检
论文部分内容阅读
由于通用搜索很难满足个性化和专业化的需求,垂直搜索应运而生。垂直搜索能提供给人们更相关的信息。本文对中文垂直搜索中的几个关键技术进行论述,并设计实现了一个简单的检索系统,包括网络爬虫、网页提取、中文分词、索引检索等,各个部分相互关联构成一个有机的整体。提出了基于实验学习和聚集爬虫的URL规则学习算法。算法的核心是URL规则表达式学习,它能自动从样本网页中学习和产生规则表达式。主要包括以下几个部分:URL抽取、试验学习、分类判别、规则学习;从URL中发掘出链接与主题之间的相关性,以此作为判断URL是否抓取的依据。重新设计了词典机制和查询算法,我们采用了双字HASH加逐字二分的词典机制,综合利用网络文本和搜索提交的关键词来识别新词,并对网页信息抽取做了论述。设计并实现了一个简单的搜索引擎,给出了系统的总体结构图,并对各个工作流程进行了详细的描述,最后对系统的使用效果和性能进行了简单评测。
其他文献
车牌自动识别技术(LPR)是目前智能交通控制领域的一个重要组成部分,它能够自动拍摄车辆图像并识别车牌号码,可应用于公路车辆自动收费、停车场车辆管理、车辆违规控制等不同
自从上个世纪20年代末第一台机器人被创造出以来,它们在协助或取代人类工作中发挥着越来越重要作用,尤其在高危险、高精度、高复杂性的行业中。70年代以来,机器人技术研究取
无线传感器网络技术是近十年来兴起的新型技术,自出现之日起,迅速发展并受到普遍重视。与传统网络不同,它将无线通信、传感器和微型机电等技术融合为一体,在军事、环境监测、
话题检测是处理互联网新闻的一种重要方法,使用聚类方法对新闻文档进行处理是实现话题检测的一条重要途径。凝聚层次聚类算法由于具有较高聚类精确度,且聚类结果能够分层展示
无线传感器网络是伴随着微电子技术、传感器技术、无线通信技术以及嵌入式计算机技术的快速发展而产生的,它是由许多低成本、具有感知、通信和计算能力的微型传感器网络节点组
基于语义的图像分类和检索,一直以来都是计算机领域的热点问题。该问题主要的研究目标是如何高效和准确的分类和检索图像。本文针对其中的若干关键问题做了研究,取得如下一些
社会网络是由个人或组织以及它们之间的联系所构成的集合,社会网络一般都会呈现高度的社区性,这是社会网络与随机网络的最大不同。近几年随着互联网和社会网络网站的飞速发展
随着Internet技术的不断成熟和广泛应用,信息化社会的进程不断加快,对软件需求的增长与日俱增。高效、可靠的软件开发模式成为研究热点,为此,对象管理组织(OMG)提出了新的软
车牌识别系统是智能交通运输系统的重要组成部分,伴随着社会经济的发展,它越来越受到人们的重视。车牌识别系统主要有车牌检测、字符分割和字符识别三部分组成,其中车牌检测
业务过程管理技术集成已有信息资源支持组织内和协作组织之间业务过程的信息化管理。随着IT技术的发展,业务过程管理已经成为提高组织竞争力的关键技术。由于具有平台独立性,