Web文本挖掘研究与实现

被引量 : 0次 | 上传用户:lschx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
web网络上凝聚了人类无穷的智慧,但由于它数据的无结构化和无索引特点,使我们充分利用这丰富的信息变得越来越困难了,但是,我们对信息的检索速度和准确性却要求越来越高。面对这一矛盾,以人工智能为基础的数据挖掘技术,如关联规则挖掘、分类、聚类迅速发展,给这一问题解决带来了希望。Web挖掘的概念应运而生。本文主要研究web文本挖掘技术。 首先,文章介绍了web文本挖掘的重要意义。应用文本挖掘可以更好地组织搜索引擎的返回结果,可以进一步提高信息检索速度。 接着,介绍了web挖掘的背景知识—数据挖掘的概念、发展历史、应用领域和主要方法。分析指出未来数据挖掘方向是Web挖掘。Web挖掘根据挖掘的数据可以分为web内容挖掘、web结构挖掘和web使用挖掘。Web文本挖掘是web内容挖掘的一部分。 介绍了web挖掘相关知识后,文章重点讨论了web文本挖掘技术。详细阐述了web文本分类技术、web文本聚类技术和关联规则挖掘技术。同时,在研究web文本挖掘技术基础上,设计了web文本挖掘框架,并实现了web页面自动下载、web页面自动分类功能模块,应用实验数据,运行效果良好。 最后,对文章进行了总结,提出了作者对未来工作的建议。
其他文献
带柄不完整球面可以利用数控车床加工,但存在效率低、成品率不高的问题,为此利用立式铣床,通过旋风铣加工方案较好地解决了这一技术问题,加工质量和效率也得到了明显提高。
为研究CRH380A高速动车壳式牵引变压器磁场、涡流及损耗的大小,提出了采用ANSYS有限元分析的方法。结合多绕组变压器的磁动势方程,建立了涡流场分析计算的数学模型,详细介绍
融媒体时代,美国媒体是如何讲故事的?2017年10月,浙江日报报业集团赴美培训考察团,在美国哥伦比亚市密苏里新闻学院接受新闻培训,并走访华盛顿邮报、纽约时报华盛顿中心、今
该文主要是参考轨道车辆动态试验内容和在实际应用过程中发现的问题,从动态试验角度阐述速度传感器在轨道车辆中的应用,供测试人员参考。包含对速度传感器、多普勒雷达、多普
<正>基于有限元数值分析法建立了110 k V三相干式变压器的三维模型,采用三维时谐磁场计算变压器铁心处的磁通密度分布,进而根据经验公式求解变压器铁心损耗,计算表明变压器铁
灵芝多糖和灵芝三萜是灵芝(Ganoderma)的主要生物活性成分。获得灵芝生物活性成分的途径有两种,一种是从子实体中提取,一种是从发酵产物中获取。子实体质量不稳定易受栽培环境
目的 探讨载脂蛋白E(apolipoprotein E,apoE)基因多态性、淀粉样β蛋白(Aβ)与血管性痴呆(Vascular Dementia,VD)的关系。 方法 应用聚合酶链反应-限制性片段长度多态性(PCR
近10年来,我国一些高质量的普通高中已开始了学分制管理的探索,积累了不少宝贵的经验。这些学校学分制实验如火如荼地展开时,学界对普通高中实行学分制的探讨和研究近乎空白。因
解决狐狸精子在冷冻及解冻过程中会出现的复苏率低、形态结构异常,特别是顶体畸形率高的问题,筛选出一种理想的狐狸精液冷冻稀释液的配方,建立起一整套科学成熟规范的冷冻精
“得”字句是现代汉语中常见的句式,它结构复杂,变化形式纷繁多样,且独具汉语特色,引起了众多研究者的兴趣。情态补语句是“得”字句中结构十分复杂的一个特殊类别,而其中“得”前