一种基于信息熵的web信息提取的方法研究

来源 :科技资讯 | 被引量 : 0次 | 上传用户：pgq1989

【摘要】

：

web页的噪声数据影响了文本提取算法的效率。提出了基于信息熵和DOM树的提取web正文信息的方法,利用文档对象模型技术提取网页包含的内容,将得到的信息融合成信息列表,再利用

【作者】

：

张云雷

【机构】

：

海口经济学院

【出处】

：

科技资讯

【发表日期】

：

2012年22期

【关键词】

：

WEB内容挖掘信息提取 DOM

【基金项目】

：

海口经济学院校级项目（Hjks11-10）资助

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

web页的噪声数据影响了文本提取算法的效率。提出了基于信息熵和DOM树的提取web正文信息的方法,利用文档对象模型技术提取网页包含的内容,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出网站的真正重复信息和正文信息。实验结果验证了方法的有效性。

其他文献

高考状元的职业成就何以低于社会预期

中国校友会网总编、“高考状元研究”课题组的研究显示，1977年恢复高考后的高考状元无一人成为职场状元。课题组还专门调查了湖南省1977年至1999年间的30名高考状元，遗憾的是，能

期刊

高考状元职业成就社会预期

草料裹包青贮机械化技术

<正> 草料裹包青贮机械化技术是北京市农机试验鉴定推广站引进的饲料作物青贮成熟技术。该技术利用小四轮拖拉机(15PH 以上)牵引的卷捆机将半干苜蓿(含水率50%～60%),或经揉切

期刊

机械化技术玉米秸饲料作物

基于插件的漏洞检测中间件的设计与开发

分析了基于插件的漏洞检测中间件的特点，提出了漏洞检测中间件的结构设计解决方案，着重介绍了各功能组件的设计与实现。该漏洞检测中间件采用成熟的中间件技术。通过统一的接口

期刊

漏洞检测中间件CVE应用程序接口EJBvulnerabilities detection middleware CVE application pro

C/S模式下的电子邮件系统设计与实现

本文就网络聊天服务器程序和网络聊天客户程序两个方面展开论述。前者通过Socket套接字建立服务器,服务器能读取、转发客户端发来信息。后者通过与服务器建立连接,来进行客户

期刊

客户端/服务器端模式套接字电子邮件Client/Server model Socket E-mail

广播电视高山台站智能供水系统

本文详细介绍了我台自行研制的广播电视高山台站智能供水系统原理和设计思想,为高山工作的单位供水提供了良好的范例,本系统具有一定的推广应用价值。

期刊

高山发射台供水

一种基于信息熵的web信息提取的方法研究

其他学术论文