【摘 要】
:
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料
【机 构】
:
中国科学院软件研究所基础软件中心,北京 100080;中国科学院研究生院,北京 100080 中国
【出 处】
:
第三届全国信息检索与内容安全学术会议
论文部分内容阅读
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。
其他文献
在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法,但在计算多个投影方向的时间复杂性太高,且投影方向的个数难于确定。本文针对这一问题提出一种新的计算方法,即根据剩余文档矩阵信息递归计算每步的主投影方向及判断投影方向个数,并将该方法应用于文本分类,在Reuters-21578文档集上进行实验,结果表明此方法能有
Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。通过在传统LDA模型中融入文本类别信息,本文提出了一种附加类别标签的LDA模型(Labeled-LDA)。基于该模型可以计算出隐含主题在各类别上的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷。与传统LDA模型的实验对比表明,基于Labeled-LDA模型的
本文采用一种基于滑动窗口的流数据频繁模式算法DSFP-SW(Data Stream FrequentPattem based-on Sliding window)进行批处理式挖掘。该算法将滑动窗口划分为几个基本的窗口,利用改进的频繁模式挖掘算法,计算每个基本窗口的临界频繁项集。以前缀树(DSFP-SW-tree)来存储每个基本窗口的临界频繁项集,结合剪枝算法,快速挖掘滑动窗口中所有频繁模式。实验采
为了改善传统信息查询的效率,本文在对本体和基于案例推理机制(CBR)理论进行了深入研究和探讨的基础上,将传统的信息查询、CBR 和本体技术相结合,设计并实现了面向查询的基于案例的本体推理(CBOR)系统框架。采用OWL作为本体模型的描述语言,从本体库中抽取本体案例并存储在案例库中,将对本体库的查询转换为对应案例库的查询,借助OWL强大的推理功能和CBR的优越性能,成功地提高了针对特定领域知识查询的
提出了一种基于区域信息熵的图像检索方法,该方法首先根据形状主方向对图像进行旋转,并对旋转后的图像提取目标区域;然后将图像的目标区域沿圆周方向划分为若干个子区域,并统计各个子区域的信息熵,最后使用欧式距离度量熵矢量之间的相似性。在商标图像库的实验结果显示该方法所提取的特征能够有效的描述图像的形状,对图像库中2000多幅商标图像实验表明,区域信息熵能具有良好的旋转、平移、尺度不变性,得到的检索结果能够
文章提出了一种基于小波和Hough变换的仿射不变性商标检索方法。根据商标图像色彩单调、纹理简单的特点,首先对商标图像进行二值化处理并做Hough变换;然后,对经Hough变换的商标图像信息进行规范化处理,使其对应的小波变换具有仿射不变性,并用Mexican Hat小波对规范化后Hough变换信息进行奇异点分析。最后根据奇异点的信息进行商标检索。实验结果表明,该方法在检索效率和检索准确率上均高于现在
渐进直推支持向量机(PTSVM)扩展了直推支持向量机(TSVM),有效地解决了不同样本分布需要人工指定工作集正负样本比例问题。但是,把二分类扩展到多分类并非易事。本文提出了一种基于渐进直推支持向量机的半对半(HAH)多类文本分类算法,实验证明,在训练速度、测试速度、模型大小方面,明显优于一对其它(OAA)、一对一(OAO)、导向决策非循环图(DDAG)方法,分类的准确性与OAA、OAO、DDAG基
PageRank模型的提出使得越来越多的研究者投入到了网络搜索算法的研究工作中。随着针对搜索引擎排序的欺诈现象的出现,出现了很多改进的PageRank算法如Trusmank和BadRank等。但是到目前为止,还没有完全有效的办法来抵制这些作弊现象。在本文中,我们假设Web网络中的各网页之间的关系符合现实中的实际的万有引力定律,通过这种网页之间的引力关系来决定一个网页对另外一个网页的支持的力度。在此
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题。现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题问互为噪声并形成错误语义,从而误导新话题的识别。针对这一缺陷,本文提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型。实验在TDT4和TDT5中获得显著改进,最小检测错误代价
本文提出了一个用于TDT(主题检测与追踪)中的多文档摘要方法。介绍了该方法与传统多文档摘要的区别,该方法能够动态增量的进行摘要,而不必等所有文档收集齐才开始:接着给出了该方法的具体步骤以及一些实现细节;最后介绍了该方法的应用实例以及相关实验结论,证明了该方法是行之有效的。