论文部分内容阅读
信息抽取是一种从非结构化文本中抽取出结构化信息的自然语言处理技术。它包括命名实体识别,关系抽取,实体属性抽取等,其中命名实体识别是信息抽取的基础。命名实体识别是指通过机器识别出文本中具有特定意义名词的技术,识别的名词有人名,地名,组织机构名等。本文研究林业病虫害实体的识别,所做的工作及成果如下:首先,从林业病虫害防治相关网站中抓取网页并预处理,再通过手工标注,得到一个包含有林业病虫害实体的语料库。其次,考虑到人工标注需要耗费大量的人力,为了使得模型具有更快的收敛速度和更强的泛化能力,节约人工标注成本,本文提出了一种基于初始聚类的实体识别方法。零初始训练集情况下,以条件随机场为模型,首先将未标注样本聚类,然后按聚类的比例选取相应数量的样本,再利用主动学习和半监督学习相结合的方法,不断更新训练集。这种方法将样本在数据集中的分布情况考虑进去,克服数据分布随机性带来的影响。再次,针对本文所用的统计模型及语料的特点,在主动学习方法环节,提出了一种N-best和RNN(Reverse Nearest Neighbors)相结合的查询策略。最后通过实验,验证了这种查询策略的可行性以及基于聚类方法的有效性。