论文部分内容阅读
黄曾阳先生创立的HNC(概念层次网络)理论认为领域信息是信息语义的一部分,句群是围绕特定领域展开的一组话语,因此以句群为单位,以领域信息为语义要素来进行句群领域信息判定研究,将有助于文本语义信息的挖掘,能够提高语义检索的正确率。
为了尽可能准确地获取句群领域,本文在HNC领域知识的基础上,通过分析新闻语料,对句群领域的判定进行了研究,主要工作包括以下4个方面:
(1)建立了领域知识库和领域词库。其中领域知识库共有438条记录,对本文的领域分类体系进行了详细地描述;领域词库共收录了19064个带有领域信息的词语,为句群领域信息的提取提供了知识基础。领域知识库和领域词库是句群领域判定程序实现的资源基础。
(2)分析了句群领域判定中存在的难点问题。共存在4个难点,分别为多领域信息词的处理,句群(带有多个领域信息的句群)的领域排序,句群无领域信息的问题和所带领域信息与句群领域不符的情况。
(3)研究总结出了相应难点的处理策略并制定出了领域判定的规则。领域判定规则是旬群领域判定程序功能实现的核心知识。
(4)采用C#语言,实现了一个句群领域判定程序,该程序可自动判定句群文本的所属领域。
不同于以往研究,本文从一个新的角度对句群领域判定进行了研究,并根据研究成果设计实现了一个可判定句群领域的应用程序,达到了预期的研究目标。
但同时在句群领域判定中还有一些问题本文尚未解决,如:无领域信息句群与判定信息不符的情况等,为了提高系统性能,在以后的研究中将针对这些问题做进一步的研究。