【摘 要】
:
该文围绕第二代搜索引擎的构建,重点研究了Web内容挖掘、结构挖掘和中文分词技术及其在搜索引擎中的应用,并探索了主题搜索引擎的关键技术.该文在介绍了Web挖掘技术及搜索引
论文部分内容阅读
该文围绕第二代搜索引擎的构建,重点研究了Web内容挖掘、结构挖掘和中文分词技术及其在搜索引擎中的应用,并探索了主题搜索引擎的关键技术.该文在介绍了Web挖掘技术及搜索引擎相关技术的基础上,首先,研究了增强学习技术,扩展了其MDP模型,扩展后的模型可以描述探索(Explore)与利用(Exploitation)之间的关系,并将该模型与Naive Bayes分类技术结合,用于在不下载Web页面的条件下识别页面的主题;其次,研究了基于链接的页面重要性分析技术,从两个方面改进了PageRank算法:在算法中考虑了用户点击信息(这是一种反馈机制),使用Seidel迭代法代替简单迭代法,加快了算法迭代收敛速度;第三,对汉语真实文本中的交集型切分歧义按照其宏结构分类,提出4条处理交集型切分歧义的原则,在此基础上构建了基于规则的中文分词系统JDfenci,在处理交集型切分歧义方面取得很好的效果.
其他文献
该文结合吉林省的用电情况和具体需求,介绍了开发一套电力需求侧管理系统的过程.首先通过建立中间数据库及建立出版、分发和订阅机制来汇集需要的全省用电数据,并且保证这些
该文首先介绍了机群系统的研究现状和研究的目的,并分析了分子动力学模拟计算在机群上应用的必要性,以及该文的研究目的.然后介绍了Linux并行计算机群的配置和组建.该文主要
对现有网络系统运行的安全状况进行定量评估,发现系统的安全状态趋势和规律,并且尽可能的对系统未来一段时间内可能遭受的可疑或攻击行为进行预测,这是近年来网络安全研究发
城市综合管网是由纵横交错的给水、排水、燃气、热力、电力、电信、工业管线组成的错综复杂的空间体系.该论文基于MAPGIS的数据类型提取管线管点坐标、管径、埋深等信息,计算
为改变中国在现代战争理论和实践上的落后状态,我所与国防总参四部多年来合作引进、剖析并开发了相应的软件.该文就是以我所基金项目电子对抗系统计算机仿真作为背景,研究定
该文研究对象是Web这样的动态海量信息;研究的主要目标是要得到Web信息处理的有效方法,给用户返回高质量的检索信息.为此提出一种个性化服务系统的结构.通过对国内网页数量的
空间图像具有背景单一、目标远近不一、高曝光和低曝光等特征。现有的图像融合算法难以满足空间背景下的图像融合问题。本文通过对现有融合算法进行研究,针对空间背景下的图
该文以实现城市范围环绕智能家居环境为课题背景,在个人通信网这一底层网络的基础之上,构建出城市范围基于环绕智能的家庭身份认证系统的软件体系结构,为城市内家庭用户提供
由于NERMS项目的需要,该文对推荐系统进行了研究.因为基于规则的推荐可能获得更好的性能,所以该文的研究主要集中在基于规则推荐的用户关联推荐.在用户关联推荐的用户关联挖
该文回顾 搜索此擎的历史、国仙外现状及基本技术,阐述了概念检索的意义,设计了一个基于概念语义网络实现概念检索的中文元搜索引擎.在设计方案中,采用自学习的方法构建概念