论文部分内容阅读
伴随着信息技术的飞速发展,信息技术进入到了云时代,随之而来的是大数据的发展与应用,因此,大数据分析技术的研究价值越来越大,其在信息技术应用中的地位也更为重要。序列数据是一种广泛收集与应用的数据表达形式,对序列数据的分析技术在数据分析领域也受到了更多的关注与研究,尤其是序列数据分类工作是一个十分重要的数据分析内容。
条件随机场模型作为一种基于条件概率的判别式模型,应用于序列数据分类中有着重要的实际意义。序列数据分类分析任务主要是利用有标签数据训练机器学习模型,然后对序列数据的序列结构进行预测与分类。条件随机场被证明是一个有效的序列分析工具,这是因为在训练数据完备的条件下,条件随机场能够有效的结合序列数据的数据上下文关系。然而在实际应用中,有标签的训练数据常常是难以获得的。基于以上的需求,本文提出一种条件随机场的协同学习方法。本文的研究内容与研究特点主要有:
(1)在序列数据中,介于序列数据的特点——数据的上下文之间是相关联的,面向序列数据的分类方法也应当结合数据的上下文之间的关系。针对这种现象,本文提出了基于条件随机场的序列数据分类方法,将自然语言处理中的上下文相关的概念引入到序列数据分类中,以提高序列数据分类的精度。
(2)通过统计分析我们观察到,模型的建立需要完备的训练数据的支持,然而在实际中,通常难以获取有标签的训练数据,人工标注训练数据又不是实用的方法。针对这种现象,本文提出了条件随机场的协同学习方法,利用多个模型的协同训练的方式,弱化对训练数据规模的需求。
本文做了大量的基于真实序列数据的实验,实验的结果充分证明,条件随机场在序列分类方法中具有很大的优势,同时条件随机场的协同学习方法在有限的训练数据集上比条件随机场更准确。