【摘 要】
:
针对传统的新词发现中,数据的稀疏性使一些低频新词无法识别等问题,提出一种对分词结果计算信息量且将深度学习模型BiLstm-CRF用于新词发现的方法,计算出的信息量用以表示词
【机 构】
:
桂林电子科技大学计算机与信息安全学院
【基金项目】
:
广西高校云计算与复杂系统重点实验室基金项目(yf17106),桂林市科学研究与技术开发计划基金项目(2016010406-1),广西科技攻关计划基金项目(桂科攻1598019-6),桂林电子科技大学研究生创新基金项目(2016YJCX64).
论文部分内容阅读
针对传统的新词发现中,数据的稀疏性使一些低频新词无法识别等问题,提出一种对分词结果计算信息量且将深度学习模型BiLstm-CRF用于新词发现的方法,计算出的信息量用以表示词语内部粘合度和分离度,并加入人工规则进行过滤。BiLstm-CRF模型精度高,对词向量的依赖小,考虑到上下文信息。信息量和模型两部分的结合解决了大量人工序列标注问题,提高了低频新词的识别率。实验结果表明,该方法能有效提高了新词识别的准确率。
其他文献
天麻球茎具有很高的药用和保健价值,是主产于中国的传统常用名贵中药,三峡地区是天麻主产区之一。由于天麻病害日益加重,致使天麻品质退化、商品形态变劣、产量逐年降低,有的
“鸡腿菇2001”菌株的生物学特性研究结果表明:在特定的条件下,“鸡腿菇2001”菌株的子实体形态独具特色;菌丝生长最适宜温度24℃-27℃,子实体最适温度为18℃-25℃;最适宜的pH值范
本文笔者结合工作经验和实践,就水电站经济运行问题进行了简单的探讨,并提出了人工智能的管理方法,仅供参考。
对8个冬虫夏草不同菌株间的拮抗性、菌丝体的生长特性及色素形成和瓶内出草等试验分析进行了比较研究,结果表明:冬虫夏草不同菌株间差异属于种类或地理分布差异,导致了生物学