基于XML的Web数据挖掘关键技术的研究

来源 :计算机工程 | 被引量 : 0次 | 上传用户:w313829237
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于存在着大量的在线信息,WWW成为数据挖掘的热点。该文介绍了Web网页的数据挖掘技术,提出一种基于XML的Web数据挖掘模型,阐述将半结构化HTML文档转换成良构的XML文档的原因,并给出基于HTML Tide库的转换代码,介绍了利用XML技术从Web网页析取数据的关键技术,包括XHTML、XSLT和XQuery等,对Web数据挖掘的其他方面如数据检验和集成作了一定的探讨。
其他文献
分布式信息检索具有有效性、高性能、高可靠性和低成本等方面的优势,因而是网络检索系统的核心技术,该文以分布、异构的信息检索环境为背景,提出对基于Agent的分布式信息检索系
根据我国铁路抢修钢梁的现状及发展要求,说明开展新型铁路抢修钢梁研究的必要性.通过对国内外既有抢修钢梁特点的分析,提出新型铁路抢修钢梁需研究的方向及主要问题,并对其中
乳腺癌是女性常见的恶性肿瘤之一,当前我国发病率有逐年上升趋势,防治乳腺癌成为女性健康的重要任务。但临床发现,现在广大女性对乳腺癌的防治意识仍十分不足,在认识上存在一些严
基于一阶剪切变形板壳理论和压电理论,推导了压电层合板结构的基本方程。对四边简支的压电层合板在四边接地、上下表面受外加电压及无外加电压作用时进行了解析求解,求得了电势
研究性学习是提倡以学生的自主性学习为基础的一种崭新的学习模式,其目的是培养学生具有永不满足、追求卓越的态度,培养学生发现问题、提出问题、从而解决问题的能力,培养学
基于ANSYS有限元分析软件,建立了两跨钢-混组合梁的非线性分析模型,利用该模型,对钢-混连续梁的极限荷载和挠度进行了仿真计算,将计算结果与采集的试验数据对比,验证了该模型的有
在PMI授权管理体系中,有关属性证书的维护是其中重要的组成部分,尤其在用户角色相对固定的大规模应用环境中不合理的证书撤销管理将会带来巨大的运算或网络传输负担.并且证书
对于形状复杂且不规则的物体,点绘制能实现高的绘制效率,还能获得高质量的绘制效果。该文讨论了点绘制方法的基本原理和基本绘制管道以及点绘制方法的硬件实现,并对今后研究和发展的方向进行了展望。
分析目前学校在培养青年教师教学能力做法上的不足之处,并分析具备录播系统的云教室的功能特点,指出云教室可以为青年教师提供真实的教学环境进行锻炼,云教室录播系统可以帮
目的探讨宫颈癌患者血清CXCL16含量检测及与肿瘤凋亡、抗凋亡活性的相关性。方法选取2014年5月至2016年4月枣阳市第一人民医院接受的68例宫颈癌根治术的早中期宫颈癌患者作为