论文部分内容阅读
提出一种基于条件随机场的领域术语上下位关系获取方法。首先,结合百科名片中结构化、制式化的语言表达形式,通过统计分析,提炼出适用于通用模型的特征词词典。然后,在词和词性特征的基础上,结合特征词词典内容和标点符号信息,利用CRF机器学习技术对术语间上下位关系的内在规律进行学习,得到其表达方式和存在环境的概率模型。最后,通过实验对模型的准确性进行验证,并提出了改进。实验结果表明:该方法抽取上下位关系的准确率达到73.50%。