基于图文有效信息量的网页正文定位

来源 :计算机工程 | 被引量 : 0次 | 上传用户:jimlancer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准确率。
其他文献
采用3种加料方式[间歇法、滴加苯乙烯(5f)法及滴加预乳化液法]合成乙酸乙烯酯(VAc)/St乳液共聚物。考察了共聚合方式对VAc/St乳液共聚物相对分子质量及其组成分布的影响,间歇法所得
提出采用在线性能评估准则和离线性能评估准则评价竞选算法用于数值优化问题时的性能。通过对标准测试函数的数值优化实验,分析竞选算法的参数对算法在线性能和离线性能的影响
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
摘 要:经典是一种永恒。经典的永恒,在于它揭示了真谛,它不因时代的变迁而落伍,也不因时光的流逝而褪色。从这种意义上来说,名著便是经典。阅读经典,不仅仅是一种心灵的“旅行”,更是在和高尚的人对话;阅读经典,其目的不仅是记住一些名篇佳作,更重要的是能够开启智慧人生。  关键词:阅读经典;智慧人生;快乐读书;高尚  作为一个思想的载体,经典是人类智慧的结晶,是人类在认识世界、改变世界的过程中积累起来的丰
在基于支持向量机(SVM)的文本无关的说话人确认中,为提高SVM话者模型的训练效率和区分性能,提出2种基于高斯混合模型(GMM)的冒认话者选取方法-通过GMM概率评分,为每个目标说话人选取
近年来,我国快递业发展非常迅速,2010年,全国规模以上快递企业的业务收入接近600亿元,年投递快件总量约24亿件,快递日业务量突破1000万件,进入世界前三位。同时,我国快递业也
目的对比Tofic人工晶状体(intraocular lens,IOL)植入术与球面IOL植入联合周边角膜缘松解术(peripheral corneal relaxing incisions,PCRI)矫正散光的临床效果。方法本研究共纳入55
化学品船“AN TAI JIANG”轮在长江口以东约150海里处机舱失火,失去动力,在大风浪中漂航,船上25名船员随船遇险。本文从救助信息处置、救助方案的拟定和救助组织实施等方面进行
目的:研究早期使用乌司他丁治疗多发伤全身炎症反应综合征(SIRS)的效果。方法选择多发伤患者71例,分为对照组34例、观察组37例;两组均行常规对症治疗;观察组加用乌司他丁针,疗程5 d;