论文部分内容阅读
近年来,随着学科的蓬勃发展,各个领域的新词汇大量涌现,这些具有专业特点的新词汇充分体现和负载了一个学科领域的核心知识和专业价值,它们的变化在一定程度上反映了一个学科领域的发展变化。专业新词汇的提取对于信息检索、数据挖掘、自动翻译等语言信息处理研究以及了解、把握一个学科领域的发展现状、未来趋向等具有重要的理论和现实意义。在新词发现领域,当前主要倾向于采用基于规则和统计相结合的方法来进行新词发现。研究的困难在于现代汉语构词法的灵活多样,导致很难找到一种通用的方法来发现各个领域的新词汇,并且现有方法的准确率和召回率都不高,性能还有待优化。本文提出一种贪婪的原子词汇构词法,用于教育技术学科新词汇的发现,为发现该领域的新词汇提供了一种新的方法。本文设计了一种面向学科领域的新专业词汇发现方法,该方法的实现部分包括文本预处理、基于贪婪的原子词汇构词法的新词串构建与统计、基于规则库的词串过滤、重复子串筛选、新专业词汇提炼和结果排序。对教育技术学核心学术期刊《电化教育研究》中的100篇论文用此方法进行分析,首先抽取出文中用“”、‘’、()、《》等特殊符号标志的长度不大于10的词串,形成候选新词表1;然后利用通用词典对全文进行分词,并按照词性去除不能构词的词语,再采用原子词汇构词法对文中的候选新词串进行统计,形成候选新词表2;词串过滤部分利用已有的不能构词的前缀词库和不能构词的后缀词库从候选新词表中过滤掉部分垃圾词串;再利用频率相减法对包含有相同内容的重复子串进行筛选,并借助领域词汇库的热点词根来进一步筛选掉部分垃圾词串;最后通过计算每个新词的TF/IDF值来对结果进行排序输出。最后将该方法应用到教育技术学领域,通过统计分析,得到该领域的若干新词汇。经过测试,算法的召回率和准确率都有所提高,说明此方法对于领域新词汇的发现是有效可行的。