基于文本分类的播存网络信源组织技术研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:a715362633
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网民和网页数量的急剧增加,互联网出现了“带宽瓶颈”和“信息垃圾”等问题。播存网络通过镜像并广播互联网上特定的主流资源或高热度信息资源,实现无冲突的信息共享。论文针对播存网络源端海量网页信息的组织开展了具体理论和实验研究。 论文首先分析了网页信息组织相关技术,主要研究了网页元数据规范、自动标引技术及文本分类技术。 其次,论文研究了基于朴素贝叶斯的文本分类算法,提出基于权重的贝叶斯算法,该算法采用权重计算特征词的先验概率。同时,提出基于贝叶斯的多分类器组合算法,该算法利用特征词构造多分类器组,降低特征词不独立给算法带来的影响。基于以上两种算法,设计和实现了中文文本分类系统,将该分类系统在搜狗及构建的新华网语料库上进行实验,实验结果表明两种改进算法都较好提升了分类的效果,为进一步信源组织系统的实现奠定了基础。 最后,论文根据播存网络源端的需要,基于改进的文本分类算法,设计并实现了播存网络信源组织原型系统。该系统基于RSS或用户访问日志获得网址;提取网页的元数据和正文,对网页正文进行文本分类和自动标引后,以RDF/XML文档作为信息组织的表现形式。该系统为信息过滤和主动信息服务提供了良好的信息源。
其他文献
随着全球市场化竞争趋势的愈演愈烈,我国政府在人力资源管理上,也投入了很大的人力和物力,通过对人力资源进行专业培训,来提升其工作素质和综合能力,进而使之在严格的管理环
随着传感器技术、微机电系统、现代网络和无线通信技术的发展,由大量传感器节点组成的无线传感器网络(Wireless Sensor Networks,WSNs)逐渐引起了学术界和工业界的高度重视。无
随着当前经济的快速发展,各行各业都逐渐兴起。化工经济就是在经济与科技等多重发展下所形成的一种特殊的经济形势。该种经济产业与传统的经济产业存在一定的差距,且传统的管
盲信号处理(Blind Signal Processing,BSP)是20世纪最后十年中迅速发展起来的一个研究领域,它又可以分成若干个互相关联而目标有所区别的子领域,如盲信号分离(Blind Signal Sepa
应用型本科院校财务管理课程教学目标是培养实践能力强、综合素质较高的财务管理人员。但目前,财务管理课程和现实需要严重脱节,所以必须加强对财务管理课程教学改革。为了实
根据国家相关文件精神,辅导员培训工作得到极大重视.本文将CTOM模型四位一体化培训体系引入辅导员培训中,以课程体系为指导,以讲师体系为依靠,以组织体系为保证,以管理机制为
发展基于软件无线电思想的GPS软件接收机技术是适应GPS新技术、新算法,并与其它全球导航卫星系统(CNSS)相互兼容、相互并存的有效解决方法。本文采用了以GP2015为主芯片的射
在生物特征识别中,人脸识别技术占有极为重要的地位,它是模式识别与人工智能的研究热点之一。人脸识别在安全验证系统、信用卡验证、医学、档案管理、视频会议、人机交互、公安
为提高石油企业的生存和竞争能力,降低生产成本,提高劳动效率,减少安全隐患,是油田当前和今后一个时期的一项主要任务。抽油井工况监测和数据采集智能系统的设计实现,正是迎
近年来,随着因特网的迅猛发展,基于分组传输的通信网络已经处于主导地位。为了能够更好地保障信息的无差错传输,差错控制编码技术在通信协议的应用层也获得越来越多的应用。