【摘 要】
:
Web信息空间中蕴涵着具有巨大潜在价值的知识,从这些海量数据源中发现有用的知识或模式是当今的研究热点。Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐
论文部分内容阅读
Web信息空间中蕴涵着具有巨大潜在价值的知识,从这些海量数据源中发现有用的知识或模式是当今的研究热点。Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。Web异常庞大的数据量,数据的无结构与半结构性以及Web极强的动态性使得如何对Web进行有效的资源和知识发现成为一个复杂的问题。 基于Web的智能感知技术旨在探索一条能够从Web海量的信息中高效地获取感兴趣部分,并将其转化成人类能直接利用的知识的自动化、智能化的道路,具有重要的理论与实践意义。 本文通过对Web挖掘和自然语言处理技术的研究,在两个研究方向间建立起有机的联系,将自然语言理解引入Web挖掘领域,从语义的角度对Web挖掘进行研究.。本文还建立一个基于Web的信息智能感知模型,探索出了一条从及时感应Web上数据流的变化、自动获取Web上感兴趣信息、再到将这些信息智能转化为可为人类直接决策参考之用的知识的新的完整的研究路线。本文: 1) 设计并实现了一种基于风格树模型的网页噪声去除方法,实验证明该方法可以显著地改善Web挖掘的质量; 2) 构造了一种改进的基于N-最短路径统计分词方法,旨在兼顾高召回率和高效率。该方法主要引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型; 3) 提出了一种基于句法分析的仿人文本分类方法,该分类方法充分分析了金融领域文本的特点,对该领域内文本分类取得了较好的效果。实验证明该方法可以显著地改善文本分类系统的性能。
其他文献
为了使消能结构在多频率波浪作用下都能有一个较低的反射率,提出一种新型消能结构——双层板与双列开孔结构复合结构。考虑了面积约束条件下结构物边界对波浪反射特性的影响,
“三级课程”管理体制是我国新一轮基础教育课程改革的重要内容,也是我国基础教育课程管理体制的创新,校本课程管理是“三级课程”管理的内容之一。其研究意义主要体现在以下
环境问题的出现意味着环境管理的开始,环境审计是环境管理的有机组成部分,环境绩效审计则是环境审计的重要方面和发展趋势。虽然我国的环境绩效审计工作已经引起了各方的普遍
从新中国建国开始,梳理分析了各时期我国的青少年体育政策,研究总结出青少年体育政策存在权责主体混乱,督导、评估、激励体系不完善,政策实施的单一性等问题。提出两点解决对
文章从一种模糊认识切入,集中论述了政府如何提高行政效率问题.文章论述了职能转变与提高行政效率的关系,强调了依据职能制订测评行政效率标准的重要性,并从科学界定政府的职
饭点时需要等上三四个小时才能排上餐位的某“网红”餐厅,近日被上海网友爆料称,餐具内出现了十几条正在蠕动的蛆虫。目前,相关餐品已经下架,上海徐汇区市场监管局已介入调查。不
小学阶段是语文水平的奠基阶段,同时也是接受新知识最快的一个阶段,小学生的课外时间也是在大学之前的学习期间里最长的,把握好这个阅读机会,语文素养必定会得到提升,在未来
本文采用问卷调查与访谈相结合的方法对我校2002级第一学期期末考试中英语成绩较差的180名学生和英语成绩优异的20名学生分别做了影响学生英语学习主要因素的调查。从对调查
本学位论文研究文化价值观对跨文化交际的影响。价值观作为隐蔽文化的核心,对人们的思想,行为,语言和交际方式都有着指导作用。文化价值观是指渗透于整个文化所共有的价值观
优化设计方法已在我国工程设计领域得到广泛运用。它是建立在近代数学最优化方法和计算机程序之上,解决复杂设计问题的一种有效工具,是计算机辅助设计(CAD)应用中的一个重要