论文部分内容阅读
在远程监督人物关系抽取算法中,训练集的构造是利用知识库对齐自由文本的方式完成的。这一过程会产生部分共现句无法表达当前实体对关系的情况。分析此问题产生的原因,结合词法、句法两个方面,提出一种利用句子模式聚类及模式评分对远程监督人物关系抽取过程训练集进行去噪的方法。该方法首先利用词向量生成特定关系描述候选词,其次针对关系描述候选词提取句子模式并进行模式聚类,最后对模式聚类结果进行评分。通过筛选评分较低模式对应句子去掉对关系描述能力不强甚至无法描述关系的句子,得到过滤后的训练集。实验证明,利用该方法对不同