基于行为识别的网页文本分类算法研究与实现

来源 :东北电力大学 | 被引量 : 3次 | 上传用户:dabeisha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网快速发展,网络中出现了海量、动态、半结构化或者非结构化的信息,这些信息80%以上都是以文本形式存在。网页分类是搜索引擎、网页过滤、网络信息管理的技术基础,因此对网页分类的研究越来越重要。网页分类算法是网页分类过程中的一个重要步骤,分类算法的优劣直接影响分类效果的好坏。网页分类技术建立在文本分类的基础上,但又不同于纯文本分类技术有所差异,这是因为网页中存在“噪音”信息以及网页的半结构化特点。文本分类由文本预处理,特征词库的建立、文本分类器、文本分类结果测试这几个部分组成。本文围绕搜索引擎优化对网站设计具有引导性的研究基础上,对网页进行行为分析,提出了一种新的网页文本分类算法——基于行为识别的网页文本分类算法。本文的主要研究工作如下:在对网页行为的研究中发现,网站的设计受搜索引擎优化技术的影响,网站设计者为了提高网站的搜索排名,利用元标签反应网站主题,因此元标签对反映网站的主题有很大的贡献。并且在这种半结构化的文本结构中,绝大多数网页中都包含title, keywords, description, subtitle等,利用网站的这一行为特点提出了新的算法。基于行为识别的网页文本分类算法充分考虑到网站中语言多元化的特点,将网页的文字编码进行统一,最大可能的消除了语言之间的区别带来的干扰。本文同时完成了对该算法的测试,并同国外的类似产品进行比较。该算法正确率、召回率等都能达到90%,体现了良好的分类性能。论文最终给出了基于行为识别的网页文本分类算法的具体实现,及测试工具的实现。该程序目前已对4000万的URL进行分类,包含中、英、俄、德、法等八种语言,体现了良好的性能。
其他文献
集成学习(Ensemble Learning)是一种机器学习范式,是当前的研究热点之一在多个领域有了很好的应用。但集成学习技术还没有成熟,在研究过程中仍然存在着众多待解决的问题,在应
汽车划痕、顽固污渍,令每个车主苦恼,全新升级后的汽车万能魔术巾只需轻轻一擦即可消失,效果立竿见影,快捷、方便,不伤车漆,神奇到让车主惊叹!该功能实用性极强,车车必备。都
伴随着信息技术的高速发展,电子商务已逐渐成为大型企业生存和发展的基本保证,同时也对中小企业产生了巨大的影响。而数据转换目前已经成为企业电子商务活动非常重要的一部份
今天,报纸为“创新”和“改革”所困扰,但其实他们更需要注重的是提供更好的新闻报道。企业热爱创造力。那些报社总是这么说。一些报纸,比如《芝加哥论坛报》,甚至有个专门负
汉语“对+名词1+动词+的+名词2”(即“p对+np1+vp+的+np2”)结构存在歧义。其歧义分为语义性歧义和结构性歧义两种。歧义的产生是由“对”字本身的多义性和短语中间的np1和vp
H.264/AVC是ITU-TVCEG和ISO/IEC MPEG联合制定的国际视频编解码标准。标准以较高的编码效率和网络友好性受到人们的广泛关注。虽然采用的依然是基于块的混合视频编码框架,但由
企业信息化是提高中小企业竞争力的重要手段,也是企业管理发展的大势所趋。但由于中小企业信息化程度普遍偏低,绝大多数仍处于手工管理的水平,他们迫切需要一种工具和手段,来
目的:探讨肠道微生态治疗肠易激综合征效果.方法:选取肠易激综合征患者58例,分为干预组和对照组.干预组予以双歧杆菌四联活菌片(思连康)3片1.5 g,3次/d,联合马来酸曲美布汀(
生物信息学的研究处在一个数据爆炸的时代,近年来在基因组学、代谢组学、转录组和蛋白质组学等领域技术的进步,使得生物学家可以有更多的数据从不同方面对生命体进行分析。非正
嵌入式系统已经深入到我们生活的方方面面。越来越多的工作需要嵌入式设备组成网络相互协作才能完成,这就必然需要有一套合适的通讯协议提供支持。而这些协议不外乎两大类,一