大规模Web文本快速分类关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:lw8307817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上的以HTML网页文本形式承载的信息,呈现出大规模爆炸形式的剧增,不只对分类精度提出了新的要求,更重要的是重新定义了分类速度的标准和要求。以往关于文本分类的研究侧重于算法的精细设计以提高分类精度,而现在除了对精度有所要求,对于分类速度快速提升的需求尤其迫切。面对互联网快速发展时期的这一新的挑战,本文对大规模Web文本快速分类过程中的若干关键问题展开了深入的研究,取得了具有一定借鉴意义的进展。本文研究了相关经典的网页正文提取技术,发现大多数算法是需要分析HTML标签意义或者HTML结构特点的,而这个分析过程会非常耗费时间。本文提出了基于窗口长度的最长连续串的提取算法。该算法无需分析具体HTML标签意义和结构,只是根据字符串的长度的特点就可以求出正文所在的位置。提取出网页正文文本后,由于互联网上有很多文本信息是重复的或者是相似的,为了降低计算量,需要做文本去重。算法Simhash是大规模网页去重的经典算法,但它是针对词语的组合形式,对于词语顺序排列没有检查,由此本文提出用Shingle思想有序词语的划分作为局部语序影响因子,加入到Simhash算法中,弥补了Simhash算法中语序无关的不足。接下来是文本分类过程。在文本分类的几个处理阶段中,除了将各个阶段算法应用到了分布式并行化框架Hadoop中,着重的优化了NB算法分类。主要思想是参考信息检索中倒排树结构,在索引树节点中存储需要重复计算的中间结果,以及使用倒排索引结构来查询检索词语及其某些分类信息,同时做了横向和纵向的剪枝交叉优化,大大提高了分类速度。
其他文献
伴随着社会的开放度,人们社交越来越广泛,在这样社交群体中也出现了婚外情、婚外恋的现象。究其原因,一是受到西方主流思想的影响,人们热衷于“开放式、随意性”交友;二是社
当前,分布式交互仿真技术已经成为各行业仿真领域特别是大型复杂仿真系统的主流技术。基于分布式交互仿真系统很难满足大型复杂分布式仿真系统在互操作性和重用性方面的需求,
随着计算机技术、网络技术和数据库技术的快速进步和发展,其在人们工作、生活和学习过程中得到了广泛的应用。农村信用社是一个信息化办公要求较高的应用场所,已经开发了许多
近年来随着物联网的高速发展,它产生的数据量也急剧增长,网络流媒体传输作为物联网行业的重要应用之一,其过程中产生的数据量是非常可观的。终端的异构性和网络的不稳定性,会
目的:探讨代谢综合征患者肾损害与非高密度脂蛋白胆固醇相关性研究。方法:一共收集138位参考2016年《中国成人血脂异常防治指南》建议的代谢综合征诊断标准的MS患者,年龄在20
电磁能量收集系统能利用不同类型的接收天线收集周围环境中的电磁能量,通过整流电路将天线收集的高频交流电转换为可用的直流电,为一些低功耗的设备或器件供电。随着能源短缺问题日趋严重,使得电磁能量收集技术成为射频天线研究领域的研究热点。天线的工作带宽、增益、极化等因素直接影响着电磁能量收集系统的性能。论文中设计了一种双圆极化的双陷波超宽带天线和一种半波整流电路,并搭建了电磁能量收集系统,验证了电磁能量收集
近年来,随着分布式能源和新能源逐步并入智能电网,导致负荷潮流变化加大,如何进行准确的短期负荷预测已成为保障智能电网安全健康运行的重要环节。与此同时,智能电网系统所收
随着全球经济的飞速发展和工业化进程的加快,“电力”作为支撑各国实体经济发展的原动力起到了不可替代的重要作用,电力系统能否稳定安全运行已经关系到了国家经济安全的发展。而电力系统在运行和控制过程中具有很复杂的特性以及常存在一些约束,所以对电力系统的经济调度研究很有必要。但事实上,在快速发展的今天,以往环境经济调度研究已经满足不了各行各业对电力的需求了。在过去,主要采用以群体智能算法为主,以及一些基于数
日月荏苒,岁月如梭,随着互联网技术的飞速发展,电子商务越来越成为了人们日常生活中购物消费的主要方式,而伴随着移动终端的功能日益丰富,性能更加强劲,加上其携带使用上的巨
税收是国家财政收入的主要来源,是保证国家正常运转的经济基础。近些年来,随着我国市场经济的迅猛发展,国家推进大众创业、万众创新,中小企业的数量迅速增加,经营规模不断扩大,业务范围日益繁杂,财务核算逐渐复杂,加上我国税收制度机制和税收管理还存在瑕疵,经营者钻制度的漏洞进行偷税、漏税,只在乎个人利益,造成地下经济规模不断扩大,税收流失越来越严重。这不仅影响了国家的财政收入,还对国家治理和经济健康发展造成