论文部分内容阅读
随着互联网和通讯产业的快速发展,各种形式的信息扑面而来。而短文本(通常文本长度小于160字符)作为手机短信息、在线即时聊天记录、论坛用户评论等信息的主要表现形式,已经成为网络中大众信息传播的重要渠道。短文本分类技术,它是基于内容分析将短文本分派到预先定义的类别中,在信息安全和商业信息获取等领域具有重要的应用前景。
由于短文本具有长度短、所描述概念信号弱的固有缺陷,使得当前主流文本分类技术用于短文本时,分类器性能变坏。解决上述问题的一种可行性途径是利用外部资源的额外信息来扩展短文本所描述的信息量。鉴于此,本文利用词对抽取理论,从短文本训练语料集中挖掘出具有上下位关系、角色关系的词对,用于对短文本进行特征扩展,以弥补其概念信号弱的固有缺陷,进而将其分类成属于某个种类还是不属于某个种类。本文的核心和贡献在于:
(1)设计并实现一个大规模词对抽取系统。选择词对抽取理论作为挖掘工具,用来发现隐藏在短文本训练语料集中具有上下位关系、角色关系的词对,以便辅助短文本分类。
(2)考察组合上下位关系、角色关系的方法对短文本分类的影响。利用组合方法获取短文本训练语料集中存在上下位关系、角色关系的词对,再利用关系词对集合扩展短文本测试语料集的特征向量,进而将扩展的测试集进行文本分类。
(3)设计并实现一种面向大规模词对集合的高效存储结构,改善词对抽取和短文本分类的效率。由于需要处理的词对规模较大,传统的B+树只能加载部分到内存,这导致一次查询操作可能产生多次磁盘随机I/O,且在大量随机插入情况下,页分裂较多,磁盘随机I/O增加。此外,逻辑有序的页在磁盘上并不一定相邻,影响了范围查询的性能。针对B+树的以上缺陷,本文设计一种新的存储结构,将磁盘的全部随机写转化为顺序写,且支持磁盘的多页I/O优化。实验证明:该存储结构的更新性能、范围查询性能明显优于传统的B+树,且随机查询性能相对稳定。