论文部分内容阅读
为了通过统计的学习来得到最优的模型参数,我们通过基于形式的聚类方法将训练数据聚成几个类,每个类的数据被用来训练一个初始概率和一个转移概率矩阵。在进行文本信息提取时,结合每一个初始概率矩阵、每一个转移概率矩阵,使用Viterbi算法来找出最优的标记序列。结果这些最优的标记序列中概率最大的标记序列将被作为最终输出。实验表明,新的算法在一定条件下能提高文本信息提取的精确度和召回率。