大规模词对抽取系统研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:tiankoufangfangtu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和通讯产业的快速发展,各种形式的信息扑面而来。而短文本(通常文本长度小于160字符)作为手机短信息、在线即时聊天记录、论坛用户评论等信息的主要表现形式,已经成为网络中大众信息传播的重要渠道。短文本分类技术,它是基于内容分析将短文本分派到预先定义的类别中,在信息安全和商业信息获取等领域具有重要的应用前景。   由于短文本具有长度短、所描述概念信号弱的固有缺陷,使得当前主流文本分类技术用于短文本时,分类器性能变坏。解决上述问题的一种可行性途径是利用外部资源的额外信息来扩展短文本所描述的信息量。鉴于此,本文利用词对抽取理论,从短文本训练语料集中挖掘出具有上下位关系、角色关系的词对,用于对短文本进行特征扩展,以弥补其概念信号弱的固有缺陷,进而将其分类成属于某个种类还是不属于某个种类。本文的核心和贡献在于:   (1)设计并实现一个大规模词对抽取系统。选择词对抽取理论作为挖掘工具,用来发现隐藏在短文本训练语料集中具有上下位关系、角色关系的词对,以便辅助短文本分类。   (2)考察组合上下位关系、角色关系的方法对短文本分类的影响。利用组合方法获取短文本训练语料集中存在上下位关系、角色关系的词对,再利用关系词对集合扩展短文本测试语料集的特征向量,进而将扩展的测试集进行文本分类。   (3)设计并实现一种面向大规模词对集合的高效存储结构,改善词对抽取和短文本分类的效率。由于需要处理的词对规模较大,传统的B+树只能加载部分到内存,这导致一次查询操作可能产生多次磁盘随机I/O,且在大量随机插入情况下,页分裂较多,磁盘随机I/O增加。此外,逻辑有序的页在磁盘上并不一定相邻,影响了范围查询的性能。针对B+树的以上缺陷,本文设计一种新的存储结构,将磁盘的全部随机写转化为顺序写,且支持磁盘的多页I/O优化。实验证明:该存储结构的更新性能、范围查询性能明显优于传统的B+树,且随机查询性能相对稳定。
其他文献
随着移动互联网的高速发展,互联网已经成为人们日常生活,企业正常运转等必不可少的通讯方式,绝大多数的数据都要通过互联网传输。这些数据涉及到各个方面,如教育、金融、医学
近年来,互联网技术飞速发展,给人们的生活、工作带来了极大的便利,但与此同时,互联网技术如同一把双刃剑,利弊共存,使得网络安全问题也随之而来。在众多网络攻击及网络入侵中,分布式
工业无线网络自从20世纪诞生以来便得到业界的广泛重视。随着计算机技术、通信技术的发展,工业无线网络越来越多的应用在工业自动化控制领域,并在人们生活工作中发挥着重要的
随着计算机通信技术的快速发展与普及,互联网逐渐成为一种计算平台,云计算作为一种新型的计算模式,描述了一种基于互联网的新的IT服务增加、使用和交付模式。云计算是一种大规模
随着计算机和网络技术的快速发展,通过网络传输的数据急剧增加,许多新的多媒体业务正成为信息传送的重要组成部分。而传统的单播通信方式满足不了新业务的需求,多播技术的出现解
互联网环境中,单个Web服务功能薄弱,已经满足不了用户日益庞杂的实际应用需求。因此,组合基本Web服务成为粗粒度的强大的服务以满足用户繁复的需求,已成为新一代计算环境下的重要
1998年Napeter的出现开始了P2P(Peer-to-Peer)软件在人们日常生活中的应用。随着P2P技术的广泛应用,对于P2P技术的研究也逐渐升温。在P2P网络中,用户之间可以平等自由的交换资
分子动力学模拟是一种利用牛顿运动定律来模拟分子运动过程的方法,给定粒子初始状态的位置和速度,通过对运动方程进行积分,从而求得粒子在下一时刻的位置和速度。这样就能记录下
用户在互联网上的行为从过去的只是"接收"信息,变成了现在的参与"创造"信息,即人们可以发表自己对商品、商家、服务等的评论。越来越多的消费者开始选择在购买前先了解该产品
无线传感器网络因其广阔的应用前景,受到了人们越来越多的关注。与此同时,其安全问题也变得越来越重要,安全性研究引起了研究人员越来越多的重视。由于传感器网络节点数目众多,节