【摘 要】
:
为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在〈table〉标记和〈p〉标记里面,并据此对网页噪声进行预
【机 构】
:
河南财经政法大学计算机与信息工程学院
论文部分内容阅读
为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在〈table〉标记和〈p〉标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要度,获取网页的主题内容.对门户网站的6 318个网页的检测表明,该算法可以有效地提取网页的主题内容,准确率达到98.2%以上.用于数据挖掘工具时,该算法优于其他同类算法,可以有效地去除网页噪声.
其他文献
采用反相乳液聚合法合成了CPAM,确定最佳工艺条件为∶V(油相)∶V(水相)=1.20∶1,反应温度35℃,水相pH=5.5,w(DMC)∶w(AM)=2.1∶1,w(乳化剂)=8.4%,w(单体)=35.4%,引发剂占水相的0.23%.在此
基于PROFIBUS现场总线技术,对某动力车间制冷站监控系统进行了改造:采用PID控制实现冷冻水循环系统的智能控制;选用Modbus/485/PROFIBUS通信模块NT30实现传统控制器和智能仪表
通过OPNET仿真实验对随机早期检测算法和弃尾算法的特点及性能进行了分析比较,结果表明,随机早检测算法在控制队列长度、缩短排队时延及减小丢包率等方面较弃尾算法有很大提
将MSP430系列微控制器用于智能康复诊疗仪的多路数据采集系统的设计,采用微控制器与上位机协调运行的方式,结合模块化的软件设计,实现了对这类输入通道较多、输入信号种类较繁的
研究了烟叶成熟过程中叶质重和主要化学成分的变化.结果表明:烟叶成熟过程中,叶质重呈现动态变化,动态变化曲线的拐点可以作为烟叶生理成熟的,临界点;烟叶化学成分受成熟度的影响较
利用移动代理将计算移动到数据的特性,设计了一种无线传感器网络目标定位算法.该算法让所有感应到目标的节点竞争移动代理,然后让移动代理对目标进行跟踪定位,竞争移动代理的
针对正交频分复用的无线网络中,当用户靠近基站覆盖区域的边缘且需切换通话时,传统排队模型切换失败率较高的问题,提出了在基站覆盖区域里建立一个多环呼叫接入控制模型的方案:将
提出了用VC++.NET实现多种类型文件管理的方法:通过在AppWizard生成的MDI应用程序框架中修改多文档应用程序的实例化函数,实现文本文件与位图图像2种不同类型文件的同时管理.实例表
从分析各种生物模拟技术的特点入手,综述了人工神经网络、进化计算、计算机免疫学在入侵检测技术领域的应用.尽管智能技术在入侵检测的研究已有大量的应用,但是还基本停留在理论