【摘 要】
:
随着互联网技术的发展,人们进入了信息化的时代。在这个信息化的时代,信息就意味着财富,如何有效快速获得准确的、有价值的信息成为关键环节。当前,Web上出现了大量的、结构不同
论文部分内容阅读
随着互联网技术的发展,人们进入了信息化的时代。在这个信息化的时代,信息就意味着财富,如何有效快速获得准确的、有价值的信息成为关键环节。当前,Web上出现了大量的、结构不同的信息资源,并且这些资源大都以Web文本形式存在,而这些Web资源中包含了大量对人们有价值的信息,怎样从海量的Web资源中提取出有效信息成为信息处理领域亟待解决的问题。Web文本分类技术是在现有的文本分类理论和技术基础上发展起来的,它利用了文本分类理论知识和现有的成熟的分类技术。Web文本分类摒弃了原始的人工分类方式,节省了大量的人力,物力等,能够有效提高用户检索的速度,并对检索结果准确分类,它已成为信息处理领域的研究热点。本文介绍了课题的研究背景和国内外研究现状,并阐述了文本分类相关的理论和技术。通过总结学习文本分类相关的理论知识,在分析网页的结构特点的基础上,对课题的解决有了一个较为清晰的思路:首先进行利用网络机器人进行网页采集,提取网页中的文本信息,然后对得到的文本信息进行预处理,转换为文本格式,最后构造分类器,利用分类算法实现Web文本的分类。在处理过程中提出了基于信息块的去噪方法,利用文本频率和χ2统计相结合的方法选择特征项,最后利用多分类决策支持向量机实现文本分类,并提出了分类搜索引擎的设计思路。通过实验设计对本文提出的理论方法进行验证,实验表明在信息抽取、Web分类结果上都有较高的准确性。
其他文献
近年来,国内外第三代移动通信(3G)技术发展非常迅速,随着我国3G牌照的正式发放,三个3G系统先后投入使用。TD-SCDMA(Time Division-SynchronousCode Division Multiple Access)作为我
缓存技术是提高响应速度、处理效率及系统性能的关键性技术,在分布式全文检索过程中,具有重要的应用价值。研究分布式全文检索中的缓存技术,具有很高的理论价值和应用基础。
当前的IP网存在体系结构无序、网络行为不确定、可管理性差、无法保证QoS等种种痼疾,根本原因还在于体系结构设计存在缺陷。这些缺陷导致网络的可知和可管理性较差,网络的可
随着社会的发展,人们对于身份认证的要求越来越高,传统的身份认证方式已经不能满足人们对于身份认证安全性和可靠性的要求,基于生物识别的身份认证技术越来越广泛地应用于人
随着Internet的迅速发展,网络的规模也随之变大,结构也越来越复杂,所以对大规模的网络进行研究已成为网络研究的必然。由于网络模拟成本比较低,易于使用等优点,所以网络模拟
垂直搜索引擎技术逐渐在用户生活中占有举足轻重的地位,用户对搜索行业信息的需求逐渐细化,而支持企业信息的垂直搜索引擎并没有得到完善。通过对企业信息搜索引擎的需求分析
随着目前通信产业的不断发展,现如今的移动终端发生了巨大的变化。在2G时代,手机仅仅是用来通话跟短信交流,但是3G却完全不同了,手机终端不再只是用来通话跟发信息,也不单单
目前,人脸检测与跟踪成为越来越活跃的研究课题,其应用前景非常广阔,如智能监控、公安(罪犯识别等)安全验证系统、视频会议、考勤系统、人机交互系统、医学、数字图书馆等。
文件分享是互联网的传统应用,在线视频则呈现爆炸性增长,若能将两者结合提供一体化服务将会带来更好的用户体验。P2P技术已被证明可以用来提供大规模的网络服务,BitTorrent是
无线传感器网络是结合了传感器、无线通信和嵌入式系统三方面技术的新型网络技术,自从被提出后,就引起了人们的极大关注,在医疗卫生、环境监测和军事等领域有着广阔的应用前