论文部分内容阅读
【摘要】文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用。在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法。在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助。
【关键词】相邻词;关键词抽取;信息检索
关键词是对文档的主题和主要内容的精炼概括。中文关键词自动抽取的研究伴随着信息检索的发展不断地进行。关键词自动抽取技术有着多方面的应用,包括文本分类、文本聚类、相关反馈、词表的自动丰富、新词热词的获取等等。
1.中文关键词抽取相关研究工作概述
中文关键词自动抽取有过不少研究工作,前人采用的方法主要包括3种:①在字的级别上采用统计方法;②经过自动分词,在词的级别上利用词典、句法分析、词性标注等自然语言处理方法;③字级别和词级别的结合,统计方法和自然语言处理方法的融合。但中文关键词自动抽取技术尚不够成熟,实验中获得的精度不够高,因而仍需要进一步研究才可能真正实用。本文介绍的工作即为在前人研究工作基础上进行的改进。
2.基于相邻词的关键词抽取算法
词t的相邻词指的是对句子进行分词后,在t之前的一个词和之后的一个词。例如对“中文关键词抽取算法”分词后得到“中文/关键词/抽取/算法”,那么“关键词”的相邻词即为:“中文”(称为“前邻”)和“抽取”(称为“后邻”)。显然,由于词可能出现在句首或者句尾,因此前邻和后邻有可能是空。对文档中每个词t的相邻词的频繁程度进行考察,从而判断词t及其相邻词是否需要合并以成为语义完整的关键词。对所有候选关键词计算权重,得到最重要的若干个关键词作为结果返回。本文提出的算法对单篇文档自动抽取关键词。关键词是文档中最重要的几个词,概括了文档的主题和主要内容。文档中词的重要性通常可以用词在该文档中的出现频率(TF)和在大规模语料库中出现该词的文档篇数来衡量(一般使用词的文档频率倒数IDF)。本文使用网络爬虫抓取的432089篇Web文档构成的语料库来统计词的文档频率:假设在总文档数为N的语料库中的n篇文档里出现了词t,则计算词t的IDF为:
IDFt=log N/n
对单篇文档d自动提取关键词的算法如下所述:
①使用基于词典的正向最小分词算法对文档进行分词。
②统计出文档d中每个词t在d中的TF,并将每个词都加入集合W中。
③利用向量空间模型中的TF×IDF公式,计算文档d中每个词在d中的权重wt:wt=TFt×IDFt。
④i=0。
⑤i=i+1,若i大于阈值Lengthth,则转⑨。否则,对词集合W中每个词s统计出它在文档d中的前邻和后邻的分布,并根据某种策略判断是否具备频繁前邻和频繁后邻。例如可以根据某个前邻PR出现的概率大于0.5来认定它是一个频繁前邻。Lengthth通常取3或者4。
⑥若s不具有频繁前邻和频繁后邻,则将s加入关键词候选集合Skey;若s具有频繁前邻PR和频繁后邻BE,则将PR+s+BE拼成一个词加入词集合W*中;若s仅具有频繁前邻PR,则将PR+s拼成一个词加入词集合WPR中;若s仅具有频繁后邻BE,则将s+BE拼成一个词加入词集合WBE中。
⑦将WPR和WBE中共同出现的词加入关键词候选集合Skey,清空WPR和WBE。
⑧令W=W*,清空W*,转⑤。
⑨计算Skey中每个词s的权重。每个词s都由若干个分词中得到的词t所组成,因此用s所包含的所有词t的权重来计算s的权重。
⑩按照Skey中每个词s的权重大小选取关键词作为结果返回。设Skey中最大的权重为wmax,使用最大权重的某个比例值wmax×Weightth作为选取关键词的动态权重阈值。
3.关键词自动抽取实验
对文档自动抽取出关键词后,需要评价结果的好坏。一般通过将自动抽取的关键词与人工抽取的关键词相比较来评价。考虑到所有的学术论文都有作者拟定的关键词,因此从中国期刊网(http://www.cnki.net)中下载了50篇以“信息检索”为主题的学术论文,分别使用每篇论文的摘要对论文进行自动关键词抽取。由于本文的算法仅考虑抽取出那些在文档中出现过的关键词,而学术论文中有的关键词并没有在摘要中出现过,因此将摘要中不存在的关键词剔除后再进行评价。
3.1关键词自动抽取结果样例
举例说明关键词自动抽取的结果。对《中文信息学报》2006年第2期上名为《基于事件框架的信息抽取系统》的论文自动抽取关键词。由于“计算机應用”与“中文信息处理”这两个关键词在论文摘要中没有出现,所以将他们去除后,得到“信息抽取、框架、继承、灾难性事件”这4个关键词作为作者拟定的关键词集合。
3.2 Weightth
选取不同的权重阈值参数Weightth进行关键词抽取。精度和召回率是对50篇学术论文进行关键词抽取实验结果的平均值。随着权重阈值参数Weightth增大,返回的结果数变少,从而导致召回率下降,而由于返回的是权重大的结果,可信度较高,因而精度上升。精度和召回率往往都是此消彼长的。因此,综合考虑这两个因素,Weightth=0.3获得最均衡的结果,此时精度为38.9%,召回率为34.9%。
3.3精确匹配与近似匹配
将抽取结果与论文作者拟定的关键词进行比较时,有精确匹配和近似匹配两种方式。例如作者拟定的关键词为“分词系统”,而自动抽取的关键词为“中文分词系统”。这样的一对关键词应当算是近似匹配成功。对关键词抽取结果进行近似匹配的评价更有实际意义。 [科]
【参考文献】
[1]何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,(01).
[2]李智超,熊风,富羽鹏,马少平.分布式大规模文本检索系统[J].广西师范大学学报(自然科学版),2007,(02).
[3]张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,(01).
[4]刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,(08).
[5]王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007,(02).
[6]马费成,望俊成,陈金霞,胡超.我国数字信息资源研究的热点领域:共词分析透视[J].情报理论与实践,2007,(04).
[7]伍建军,康耀红.一种基于特征词聚类的文本分类方法[J].情报理论与实践,2007,(01).
【关键词】相邻词;关键词抽取;信息检索
关键词是对文档的主题和主要内容的精炼概括。中文关键词自动抽取的研究伴随着信息检索的发展不断地进行。关键词自动抽取技术有着多方面的应用,包括文本分类、文本聚类、相关反馈、词表的自动丰富、新词热词的获取等等。
1.中文关键词抽取相关研究工作概述
中文关键词自动抽取有过不少研究工作,前人采用的方法主要包括3种:①在字的级别上采用统计方法;②经过自动分词,在词的级别上利用词典、句法分析、词性标注等自然语言处理方法;③字级别和词级别的结合,统计方法和自然语言处理方法的融合。但中文关键词自动抽取技术尚不够成熟,实验中获得的精度不够高,因而仍需要进一步研究才可能真正实用。本文介绍的工作即为在前人研究工作基础上进行的改进。
2.基于相邻词的关键词抽取算法
词t的相邻词指的是对句子进行分词后,在t之前的一个词和之后的一个词。例如对“中文关键词抽取算法”分词后得到“中文/关键词/抽取/算法”,那么“关键词”的相邻词即为:“中文”(称为“前邻”)和“抽取”(称为“后邻”)。显然,由于词可能出现在句首或者句尾,因此前邻和后邻有可能是空。对文档中每个词t的相邻词的频繁程度进行考察,从而判断词t及其相邻词是否需要合并以成为语义完整的关键词。对所有候选关键词计算权重,得到最重要的若干个关键词作为结果返回。本文提出的算法对单篇文档自动抽取关键词。关键词是文档中最重要的几个词,概括了文档的主题和主要内容。文档中词的重要性通常可以用词在该文档中的出现频率(TF)和在大规模语料库中出现该词的文档篇数来衡量(一般使用词的文档频率倒数IDF)。本文使用网络爬虫抓取的432089篇Web文档构成的语料库来统计词的文档频率:假设在总文档数为N的语料库中的n篇文档里出现了词t,则计算词t的IDF为:
IDFt=log N/n
对单篇文档d自动提取关键词的算法如下所述:
①使用基于词典的正向最小分词算法对文档进行分词。
②统计出文档d中每个词t在d中的TF,并将每个词都加入集合W中。
③利用向量空间模型中的TF×IDF公式,计算文档d中每个词在d中的权重wt:wt=TFt×IDFt。
④i=0。
⑤i=i+1,若i大于阈值Lengthth,则转⑨。否则,对词集合W中每个词s统计出它在文档d中的前邻和后邻的分布,并根据某种策略判断是否具备频繁前邻和频繁后邻。例如可以根据某个前邻PR出现的概率大于0.5来认定它是一个频繁前邻。Lengthth通常取3或者4。
⑥若s不具有频繁前邻和频繁后邻,则将s加入关键词候选集合Skey;若s具有频繁前邻PR和频繁后邻BE,则将PR+s+BE拼成一个词加入词集合W*中;若s仅具有频繁前邻PR,则将PR+s拼成一个词加入词集合WPR中;若s仅具有频繁后邻BE,则将s+BE拼成一个词加入词集合WBE中。
⑦将WPR和WBE中共同出现的词加入关键词候选集合Skey,清空WPR和WBE。
⑧令W=W*,清空W*,转⑤。
⑨计算Skey中每个词s的权重。每个词s都由若干个分词中得到的词t所组成,因此用s所包含的所有词t的权重来计算s的权重。
⑩按照Skey中每个词s的权重大小选取关键词作为结果返回。设Skey中最大的权重为wmax,使用最大权重的某个比例值wmax×Weightth作为选取关键词的动态权重阈值。
3.关键词自动抽取实验
对文档自动抽取出关键词后,需要评价结果的好坏。一般通过将自动抽取的关键词与人工抽取的关键词相比较来评价。考虑到所有的学术论文都有作者拟定的关键词,因此从中国期刊网(http://www.cnki.net)中下载了50篇以“信息检索”为主题的学术论文,分别使用每篇论文的摘要对论文进行自动关键词抽取。由于本文的算法仅考虑抽取出那些在文档中出现过的关键词,而学术论文中有的关键词并没有在摘要中出现过,因此将摘要中不存在的关键词剔除后再进行评价。
3.1关键词自动抽取结果样例
举例说明关键词自动抽取的结果。对《中文信息学报》2006年第2期上名为《基于事件框架的信息抽取系统》的论文自动抽取关键词。由于“计算机應用”与“中文信息处理”这两个关键词在论文摘要中没有出现,所以将他们去除后,得到“信息抽取、框架、继承、灾难性事件”这4个关键词作为作者拟定的关键词集合。
3.2 Weightth
选取不同的权重阈值参数Weightth进行关键词抽取。精度和召回率是对50篇学术论文进行关键词抽取实验结果的平均值。随着权重阈值参数Weightth增大,返回的结果数变少,从而导致召回率下降,而由于返回的是权重大的结果,可信度较高,因而精度上升。精度和召回率往往都是此消彼长的。因此,综合考虑这两个因素,Weightth=0.3获得最均衡的结果,此时精度为38.9%,召回率为34.9%。
3.3精确匹配与近似匹配
将抽取结果与论文作者拟定的关键词进行比较时,有精确匹配和近似匹配两种方式。例如作者拟定的关键词为“分词系统”,而自动抽取的关键词为“中文分词系统”。这样的一对关键词应当算是近似匹配成功。对关键词抽取结果进行近似匹配的评价更有实际意义。 [科]
【参考文献】
[1]何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,(01).
[2]李智超,熊风,富羽鹏,马少平.分布式大规模文本检索系统[J].广西师范大学学报(自然科学版),2007,(02).
[3]张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,(01).
[4]刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,(08).
[5]王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007,(02).
[6]马费成,望俊成,陈金霞,胡超.我国数字信息资源研究的热点领域:共词分析透视[J].情报理论与实践,2007,(04).
[7]伍建军,康耀红.一种基于特征词聚类的文本分类方法[J].情报理论与实践,2007,(01).