一种基于信息熵的web信息提取的方法研究

来源 :科技资讯 | 被引量 : 0次 | 上传用户:pgq1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
web页的噪声数据影响了文本提取算法的效率。提出了基于信息熵和DOM树的提取web正文信息的方法,利用文档对象模型技术提取网页包含的内容,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出网站的真正重复信息和正文信息。实验结果验证了方法的有效性。
其他文献
中国校友会网总编、“高考状元研究”课题组的研究显示,1977年恢复高考后的高考状元无一人成为职场状元。课题组还专门调查了湖南省1977年至1999年间的30名高考状元,遗憾的是,能
<正> 草料裹包青贮机械化技术是北京市农机试验鉴定推广站引进的饲料作物青贮成熟技术。该技术利用小四轮拖拉机(15PH 以上)牵引的卷捆机将半干苜蓿(含水率50%~60%),或经揉切
分析了基于插件的漏洞检测中间件的特点,提出了漏洞检测中间件的结构设计解决方案,着重介绍了各功能组件的设计与实现。该漏洞检测中间件采用成熟的中间件技术。通过统一的接口
本文就网络聊天服务器程序和网络聊天客户程序两个方面展开论述。前者通过Socket套接字建立服务器,服务器能读取、转发客户端发来信息。后者通过与服务器建立连接,来进行客户
本文详细介绍了我台自行研制的广播电视高山台站智能供水系统原理和设计思想,为高山工作的单位供水提供了良好的范例,本系统具有一定的推广应用价值。