基于XML的Web内容挖掘方法

来源 :沈阳大学学报：自然科学版 | 被引量 : 0次 | 上传用户：jijididixia

【摘要】

：

在分析Web内容挖掘特征的基础上，提出一种基于XML技术的Web内容挖掘模型．利用HITS算法确定权威Web页面，利用HTMLTidy工具将非XML文件经过数据清洗后转换成结构良好的XMI。文档，结

【作者】

：

郑霞陈建国

【机构】

：

闽江学院计算机科学系,福建工程学院软件学院

【出处】

：

沈阳大学学报：自然科学版

【发表日期】

：

2012年3期

【关键词】

：

WEB挖掘数据挖掘文本聚类非XML文档 Web Mining data mining text clustering non-XML documen

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在分析Web内容挖掘特征的基础上，提出一种基于XML技术的Web内容挖掘模型．利用HITS算法确定权威Web页面，利用HTMLTidy工具将非XML文件经过数据清洗后转换成结构良好的XMI。文档，结合互联网上传统科技论文的自动抽取系统实例，采用文本聚类分类技术进行面向XML文档数据的数据挖掘．实验结果表明，该模型工作良好，可以自动、有效地提取网页内容．

其他文献

电凝聚法处理三次采油废水的试验研究

采用铝铁电极对三次采油废水进行电凝聚试验研究,以聚丙烯酰胺（HPAM）和含油量去除率为考察指标,研究了极板材料、电流、电解时间、极板间距和pH值对电凝聚效果的影响.结果表明：

期刊

电凝聚三次采油废水含油量HPAM去除率electro-coagulation tertiary oil recovery wastewater o

基于随机交叉机制的同步优化网络模型

在不改变网络度分布的前提下，采用随机交叉机制对网络的同步能力进行优化，提出了一种无标度网络的同步优化网络模型．在同步能力提高的过程中，观察网络匹配特性、聚类系数、特征路

期刊

复杂网络同步优化网络模型complex network synchronization--optimal network model

荧光分析法测定肉类食品中诺氟沙星的残留

采用Al 3＋增敏诺氟沙星的荧光强度,建立荧光分析法测定肉类食品中诺氟沙星的残留.优化了分析实验体系的最佳pH值、Al 3＋质量浓度和反应时间,利用荧光法测定,诺氟沙星的线性方程

期刊

诺氟沙星荧光分析法肉类含量测定norfloxacin fluorescence spectrometry meat product content

基于突变级数法与情景分析法的广西CO_2减排研究

依据广西1978—2009年CO2排放的相关指标数据,采用突变级数法对广西1978—2009年CO2减排作出了相关分析评价.在此基础上,运用情景分析法预测不同情景下广西2015年CO2排放,分

期刊

CO2减排可持续发展突变级数法情景分析法CO2 abatement sustainable development catastrophe prog

自动电位滴定中的一阶导数二阶导数滴定曲线的绘制

电位滴定经常用一阶导数、二阶导数滴定曲线法判断滴定终点,其计算量大,不易准确确定终点.为了在实验测定中快速判断终点,使用Excel电子表格处理自动电位滴定实验数据,首先根

期刊

自动电位滴定一阶导数二阶导数滴定曲线automatic potential titration first derivative second de

虚拟多入口路由的蜜罐网络构建

为了防止黑客对内部网络的破坏,利用Honeyd构建一个具有迷惑性的蜜罐网络,包括虚拟出多入口路由的网络拓扑结构、网络延迟及网络丢包等网络特性,来干扰黑客攻击和收集攻击信

期刊

蜜罐多入口路由虚拟网络入侵检测HONEYD拓扑结构二次防御黑客boneypot multi-entry routes virtual net

序半群中有边界值的直觉模糊理想

介绍了序半群中具有边界值（α,β）的直觉模糊理想的概念,并对其相关运算性质进行了探讨.最后,通过有边界值（α,β）的直觉模糊理想,对内正则序半群的特征进行刻画,得到若干刻画定

期刊

序半群直觉模糊理想完全格正则序半群ordered semigroup intuitionistic fuzzy left （right） ideals

基于XML的Web内容挖掘方法

其他学术论文