【摘 要】
:
随着互联网技术的飞速发展,新闻网页、电子邮件、博客日志等文本信息的数量急剧增长,信息过载与知识匮乏之间的矛盾日益突出。对海量文本信息高效组织与处理成为当前信息需求
论文部分内容阅读
随着互联网技术的飞速发展,新闻网页、电子邮件、博客日志等文本信息的数量急剧增长,信息过载与知识匮乏之间的矛盾日益突出。对海量文本信息高效组织与处理成为当前信息需求的重要问题。分类-尤其是层次分类-以其直观、有效的特点,成为目前组织信息最常用的手段。然而,面对呈指数级增长的在线文本,纯人工归类显然是不现实的。因此,文本自动分类技术被广泛研究和关注。对文本自动分类技术而言,一方面,构造训练样本集费时费力,致使训练样本的稀缺成为文本分类系统实用化的重要障碍;另一方面,大量已组织好的异构文档却未被利用。因此,在新的分类体系中,分类时如何最大程度的利用现有文档集、尽量减少人工标注,将是一个值得研究的问题。
另外,大量的纸质资源电子化正在改变着人们阅读习惯和收藏习惯,面向行业提供全面的数字内容产品的专业服务成为了一种新的需求。为了能够面向各专业领域提供行业库内容产品,需要将各种异构资源按照特定行业类别体系进行分类,这也使多体系文本自动分类技术成为重要的研究课题。
本文在这种背景下研究“多体系文本自动分类”这一新的分类场景,提出了通用的解决流程;将本体映射领域的方法加以改进并应用于多体系分类中,提出分类体系映射模型;在分析映射类别及特点的基础上,提出样本投放算法;研究如何以尽量少的人工标注最大程度的提高系统的学习性能,并量化地分析了人工标注对系统及各个部分的贡献。
同时,本文还设计和实现了行业库制作系统。该系统可以针对行业用户提供的分类体系将现有的数字资源进行分类并形成内容产品。它能够使人工标注工作量最小化,并按照精度要求与行业用户交互。行业库制作系统实现并验证了本文的多体系文本分类的流程、算法的效果和性能。
其他文献
城市是一个有生命的系统,它的各种基础设施及功能由生活在其中的人们所定义,并随着城市人群的行为特征变化而演进。对城市人群的移动性特征进行可视化、刻画分析及比较一直是城
用户是网络的主体,用户行为是互联网安全问题的主要来源,而目前大多数网络管理系统对网络用户可知可控粒度不够,应用系统之间缺乏对用户信息和行为的有效共享。因此,很有必要
模型格式标准是计算机图形学的重要课题,在CAD/CAE/CAM领域都有非常重要的作用。模型文件质量直接影响到产品的质量和工作效率。高质量的模型文件应该能够准确地表达设计者的
随着信息技术的飞速发展,特别是Web2.0的兴起和发展,用户生成内容(UGC)越来越丰富。用户生成内容含有大量的情感信息,这使得传统的以关键字为检索手段的信息获取技术日益不能
随着网络带宽的快速增加和E-Science中对大量科学数据传输的需要,很多长距离高速网络相继出现,并在诸多领域发挥着重要的作用,所以对适用于长距离高速网络的网络协议研究具有非
本研究的目的是提出一种有效的求解大规模工程问题的计算方法。就实际的工程问题而言,其涉及的计算量往往很大且需要耗费大量的计算时间,同时对内存容量的需求也很高,从而导
Web应用离不开数据的持久化。持久化是用来保证数据值的生命周期满足应用程序的要求,具体而言,是将应用程序中的数据值保存到非易失性存储介质(如硬盘、闪存等等)中。传统的Web应
虚拟战场是虚拟现实技术在军事领域的重要应用。计算机技术和图形图像技术的发展带动了虚拟战场技术的长足进步。在新时期部队模拟作战和军事训练中,通过虚拟战场全面掌握战
eDonkey网络是当今流行的P2P文件共享系统之一,近年来对eDonkey网络的研究越来越深入,涉及到资源的分布、用户行为、污染的程度评估与传播、网络流量特征和聚集性等。由于用
随着多处理器、多核、众核技术的广泛应用,虚拟机技术也得到了长足发展。在多核虚拟化环境中,并发运行的虚拟机会由于竞争使用有限的底层缓存和总线带宽等共享资源,而出现严重的