论文部分内容阅读
候选关键词组鉴别是关键词组自动化提取的第一步,在这个过程中我们采用了一种新的数据结构:双向型高搭配力度ngrarn链。这种链式结构以搭配力度高者优先为延伸(生长)原则,可以向左右两个方向延伸(生长)。经过对得到的ngrams消除冗余,可以得到一些结构比较规范的ngrams作为文章的候选关键词组。