中文博客搜索引擎研究

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:kingsword001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了充分利用博客日志所提供的信息,提出了建立中文博客搜索引擎的基本思路。通过对博客的技术特点和博客搜索引擎工作原理的分析,设计了中文博客搜索引擎的系统结构。在此基础上,利用规则定义和正则表达式,结合真正简易聚合技术对传统的网络爬虫进行了改进,较好地解决了博客信息难以被收录的问题。利用真正简易聚合技术对博客信息进行格式化处理,加快了博客信息采集速度。通过对中文分词的扩展,利用Lucene.net全文搜索工具实现了一个中文博客搜索引擎。实验测试结果表明,采用的方案和技术是可行的。
其他文献
服务组合优化问题是当前服务计算领域的研究热点之一。针对现有优化技术将多个约束条件转化为单一优化目标难以处理多目标问题的不足,提出了一种基于多目标优化的粒子群算法,
设计并实现了一种基于SOPC技术的高性能固态存储硬盘,从存储层次的角度研究了固态存储硬盘的原理,分析了NAND Flash存储芯片和计算机存储系统的工作特性,总结了一般Flash存储
本文主要介绍五加科植物短柄五加对中枢产生抑制作用和毒性试验的初步药理研究,通过小型动物实验表明:短柄五加确具有较强的镇静、安定作用,与民间认为其有安神作用相符。旨
为了解决中文本体非分类关系抽取问题,提出了基于语义依存分析的非分类关系抽取方法。利用语义角色标注和依存语法分析思想,分析得到了文本句子的语义依存结构,提取其中具有语义
为提升构件库之间的互操作和资源共享能力,提出了基于对等网络的构件库互联技术。在分析了互联必须解决的基本问题的基础上,扩展了BIDM标准数据模型使其支持构件分类和接口信息