【摘 要】
:
渐进直推支持向量机(PTSVM)扩展了直推支持向量机(TSVM),有效地解决了不同样本分布需要人工指定工作集正负样本比例问题。但是,把二分类扩展到多分类并非易事。本文提出了一种基于渐进直推支持向量机的半对半(HAH)多类文本分类算法,实验证明,在训练速度、测试速度、模型大小方面,明显优于一对其它(OAA)、一对一(OAO)、导向决策非循环图(DDAG)方法,分类的准确性与OAA、OAO、DDAG基
【机 构】
:
西安工程大学计算机学院 陕西 西安 710048 华东交通大学机电工程学院,江西 南昌 33001
【出 处】
:
第三届全国信息检索与内容安全学术会议
论文部分内容阅读
渐进直推支持向量机(PTSVM)扩展了直推支持向量机(TSVM),有效地解决了不同样本分布需要人工指定工作集正负样本比例问题。但是,把二分类扩展到多分类并非易事。本文提出了一种基于渐进直推支持向量机的半对半(HAH)多类文本分类算法,实验证明,在训练速度、测试速度、模型大小方面,明显优于一对其它(OAA)、一对一(OAO)、导向决策非循环图(DDAG)方法,分类的准确性与OAA、OAO、DDAG基本接近,比较适合于处理大规模文本数据的多类分类。
其他文献
术语同义词对的自动发现和识别在文献检索领域有着重要的研究意义和应用价值。本文提出一种在文献中自动抽取同义词的方法,它将问题分为(1)抽取同义词对;(2)确认同义词对是否真正匹配,两步的完成都借助了机器学习的方法。实验证明本文的方法是有效的。
本文将语义分析引入到文本聚类的任务中,提出了一种基于知网的特征抽取方法。针对词语的一词多义的现象,从全文的角度考察词的语义,结合相关概念场,将词义排歧转化为对相关概念场中的词在全文出现频率的计算。实验证明,经过词义消歧后,将文本中的词语映射为知网中的义原,显著地降低了特征空间的维数,使聚类宏平均F1值提高了6个百分点。
现有的关键词抽取技术仅仅是对正文词汇的抽取,不能够抽取隐含主题。隐含主题的抽取是关键词自动抽取技术的难点。众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法,可以有效抽取隐含主题。该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K
数字媒体技术的快速发展,使得对海量视音频信息进行高效检索的需求越来越广泛和迫切。本文介绍的关键音检索系统,融合了语音处理技术和信息检索技术,能够对海量音频信息进行快速的检索,找到检索词发音的准确位置,为语音内容自动检索提供了新的手段。该系统采用音素矩阵的索引和检索算法,构建在自主研发的并行计算平台之上,具有高准确率、稳定可靠和海量处理能力等优点。实验数据表明,该系统在检索准确度、速度和存储等方面均
在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法,但在计算多个投影方向的时间复杂性太高,且投影方向的个数难于确定。本文针对这一问题提出一种新的计算方法,即根据剩余文档矩阵信息递归计算每步的主投影方向及判断投影方向个数,并将该方法应用于文本分类,在Reuters-21578文档集上进行实验,结果表明此方法能有
Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。通过在传统LDA模型中融入文本类别信息,本文提出了一种附加类别标签的LDA模型(Labeled-LDA)。基于该模型可以计算出隐含主题在各类别上的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷。与传统LDA模型的实验对比表明,基于Labeled-LDA模型的
本文采用一种基于滑动窗口的流数据频繁模式算法DSFP-SW(Data Stream FrequentPattem based-on Sliding window)进行批处理式挖掘。该算法将滑动窗口划分为几个基本的窗口,利用改进的频繁模式挖掘算法,计算每个基本窗口的临界频繁项集。以前缀树(DSFP-SW-tree)来存储每个基本窗口的临界频繁项集,结合剪枝算法,快速挖掘滑动窗口中所有频繁模式。实验采
为了改善传统信息查询的效率,本文在对本体和基于案例推理机制(CBR)理论进行了深入研究和探讨的基础上,将传统的信息查询、CBR 和本体技术相结合,设计并实现了面向查询的基于案例的本体推理(CBOR)系统框架。采用OWL作为本体模型的描述语言,从本体库中抽取本体案例并存储在案例库中,将对本体库的查询转换为对应案例库的查询,借助OWL强大的推理功能和CBR的优越性能,成功地提高了针对特定领域知识查询的
提出了一种基于区域信息熵的图像检索方法,该方法首先根据形状主方向对图像进行旋转,并对旋转后的图像提取目标区域;然后将图像的目标区域沿圆周方向划分为若干个子区域,并统计各个子区域的信息熵,最后使用欧式距离度量熵矢量之间的相似性。在商标图像库的实验结果显示该方法所提取的特征能够有效的描述图像的形状,对图像库中2000多幅商标图像实验表明,区域信息熵能具有良好的旋转、平移、尺度不变性,得到的检索结果能够
文章提出了一种基于小波和Hough变换的仿射不变性商标检索方法。根据商标图像色彩单调、纹理简单的特点,首先对商标图像进行二值化处理并做Hough变换;然后,对经Hough变换的商标图像信息进行规范化处理,使其对应的小波变换具有仿射不变性,并用Mexican Hat小波对规范化后Hough变换信息进行奇异点分析。最后根据奇异点的信息进行商标检索。实验结果表明,该方法在检索效率和检索准确率上均高于现在