【摘 要】
:
近年来随着互联网的发展以及现代的、廉价的图形用户界面和大容量存储设备的出现,信息检索领域已经发生了巨大的变化。没有人能够准确地知道在网络上到底有多少网页,大多数的估算都认为这个数字超出了100亿。要利用偌大数量的数据,目前唯一的方式,就是利用搜索引擎自动地组织这些数据。搜索引擎是对网络上的信息项进行表示、存储、组织和存取。利用搜索引擎能够查找数量庞大的网络信息,并可以迅速查到未知信息。搜索引擎是互
论文部分内容阅读
近年来随着互联网的发展以及现代的、廉价的图形用户界面和大容量存储设备的出现,信息检索领域已经发生了巨大的变化。没有人能够准确地知道在网络上到底有多少网页,大多数的估算都认为这个数字超出了100亿。要利用偌大数量的数据,目前唯一的方式,就是利用搜索引擎自动地组织这些数据。
搜索引擎是对网络上的信息项进行表示、存储、组织和存取。利用搜索引擎能够查找数量庞大的网络信息,并可以迅速查到未知信息。
搜索引擎是互联网信息检索技术的核心。目前,Internet上广泛使用的包括中文在内的搜索引擎已不下十几种,比如以Google为首的通用搜索引擎,和各类以行业来划分的垂直式的网络搜索工具。然而,中文搜索引擎与国外的同类产品相比却还存在着很多问题,如覆盖率低、查准率不高、检索精度差、更新速度慢、无法控制网络信息的动态变化、对信息内容难于控制和管理等。
针对中文搜索引擎存在的问题,本文提出了对中文搜索引擎从系统检索对象和自身系统的设计结构进行优化等对策,尝试解决其中的查准率和检索精度的问题。
文中详细地研究了通用型搜索引擎的基本结构和基本技术,并且以自行设计的Sirgin搜索引擎为基础,描述了中文搜索引擎的设计方法,其中重点阐述了搜索引擎内部数据结构的实现方式。在此基础上文章还给出了sirgin搜索引擎所特有的CastClosed网页结构分析技术,和SpRank排序技术的实现方案和算法。
其他文献
非遗是一种带有温度的记录与见证。上海市嘉定区封浜高级中学在弘扬传统文化、建设非遗课程中,组织学生讲述非遗故事,掌握非遗技艺,感受非遗文化,促使学生感悟到中华优秀传统文化的博大精深,领会中华传统文化观与审美意境,形成正确的世界观、人生观与价值观,从而提升学校整体育人功能。
非接触激光测径方法大致分为四种直径测量方法:激光多普勒测径法、激光衍射测径法、投影成像测径法、激光扫描测径法,而激光扫描测径方法是现代工业生产在线测量用得较多的一种。激光扫描测径系统主要是以光学几何原理为基础设计的,激光具有较高的稳定性、便捷的测量及高精度的测量特点,与计算机技术结合,可以通过上位机实现智能控制测量数据。激光扫描测径仪具有非接触式、快速、精度高等特性,经常使用在现代工业生产中各种直
荧光磁粉检测是一种比较成熟的工业无损检测方法,主要用于检测铁磁材质的工件表面或近表面缺陷,该方法具有操作简单、检测灵敏度高和成本低等优点,被广泛应用于铁铸工件的质量检测过程中。但是目前荧光磁粉裂纹缺陷检测方法主要还是以人工目视的方式对工件表面进行检查判断,这种检测方式除了效率低,还会因工作人员疲劳而产生诸漏检、错检等问题,并且工作人员长期在紫外光照环境下也不利于人的身体健康。同时,对于大尺寸、复杂
大规模电动汽车无序接入电网会对当前电网造成很大影响,尤其电力负荷高峰期接入大量电动汽车会导致负荷峰上加峰,不利于电网安全稳定与经济运行。因此,为了减小电动汽车充电负荷对电网造成的影响,有必要提出有效的充电负荷控制策略。本文考虑配电变压器容量、用户充电需求等约束条件,研究电动汽车充电负荷的有序控制策略,主要目标包括住宅小区负荷特性的峰谷差最小和实现用户充电费用最少。 首先,分析动力电池的充电特性、
在迈向“中国制造2025”的过程中,仓储物流作为物品流通的载体、电子商务的血液,而自动导引运输车(Automated Guided Vehicle,AGV)作为离散型物流管理系统的连接环节,必将得到广泛应用。随着柔性制造和自动化立体仓库的兴起以及高精度传感器的应用,传统的导航方式已不能满足当今智能仓储物流的发展需求。因此,AGV移动平台能否实现自主定位与导航问题是亟待解决的。 现有的AGV移动平
LED作为一种新型照明光源,具有发光效率高、使用寿命长、显色性好、绿色环保和安全可靠等优点。而LED照明是一种低压安全的照明方式,需要设计合理的LED驱动电源。开关电源的转换效率高,体积小是LED驱动电源的首选。同时,LED具有恒压负载特性,其驱动电源一般采用恒流源。因此,本文在对LED驱动技术探讨的基础上,对LED驱动电源进行深入研究。 论文对LED驱动电源的研究现状和发展做了分析总结,简要介
随着人工智能及信息采集技术的发展,信息资源呈现爆炸式增长,但是这些数据往往表现出分布高度失衡的问题。更严重的是,由于传统的分类器大都是针对平衡数据进行分类的,在分类的过程中考虑的是整体准确率,因此在处理失衡数据时,分类模型往往更倾向于分类多数类样本,在一定程度上忽略了少数类样本的准确率,导致模型在少数类样本上的分类结果很差。与此同时,许多数据本身包含隐私信息,如医疗数据等,使用这些数据训练出来的模
目的系统评价阿维A胶囊联合复方甘草酸苷治疗红皮病型银屑病的疗效及安全性。方法计算机检索EMBase、PubMed、中国知网、维普数据库、万方科技等数据库自建库以来关于阿维A胶囊联合复方甘草酸苷治疗红皮病型银屑病的随机对照试验(RCT)。对文献进行筛选后,采用Cochrane制定的Meta分析文献质量评价方法进行质量评价,采用RevMan5.4软件进行Meta数据分析
针对民航模拟训练培训过程中考核评估主观性强的问题,在分析考核评估需求、重要性与现有技术趋势发展的基础上,提出了一种可量化评估管制效果的方法。文章提出了一种使用德尔菲法、层次分析法、聚类分析法、模糊数学法等方式进行数据分析处理,对管制规则、通话、安全、效率、人机界面等各项进行量化评估的方式,与传统评估方式相比可以提高民航管制培训评估的客观性与准确性。
在小学语文教学中,作文教学作为重要组成内容,其不仅对于培养学生的语言、文字和创新能力具有重要作用,还会对小学语文教学质量带来直接影响。新的课程标准已经对小学作文教学提出明确要求,即在教学过程中,教师应当要着重培养学生写作兴趣和写作的自信心。因此,在实际教学中,小学语文教师应当注重学生观察力、表现力、思考力的培养,通过激发小学生的想象力,让小学生写出更多有创意、可以表