一种新颖的词聚类算法和可变长统计语言模型

来源 :计算机学报 | 被引量 : 0次 | 上传用户:q1104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.但该方法的两个主要瓶颈在于:(1)词的聚类.目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法.(2)基于类的模型为增强对不同领域语料的适应能力往往牺牲了一部分预测能力.该文的工作就是围绕这两个瓶颈问题展开的.在词的聚类方面,作者基于自然语言词与词之间的相似度,提出了一种词的分层聚类算法.实验证明,该算法在算法复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出了一种新的基于类的可变长模型(Vari-gram)的生成方法,用此方法生成的基于类的Vari-gram模型预测能力远高于通常的基于类的n元模型.
其他文献
目的 观察丹参片在冠状动脉药物洗脱支架(DES)植入术后对冠心病预后的影响.方法 选择DES植人成功的冠心病患者215例,随机分为治疗组(115例)和对照组(102例),治疗组加用丹参片
成纤维细胞生长因子23(FGF-23)是一个新近发现的钙磷代谢的调节因子,可通过与肾小管细胞膜受体Klotho等分子结合,增加尿磷排泄.在慢性肾脏病(CKD)患者,血清FGF23水平升高先于
抑郁障碍与躯体疾病共存于慢性疾病中,并具有较高的发病率、致残率和致死率.现有研究发现,抑郁障碍可能成为诱发冠状动脉性心脏病、高血压病、心力衰竭的新的危险因素.同时,
当前国内的火电机组按自动化程度可分为以下几种类型:第1类是具有机炉协调控制系统(CCS)的机组;第2类是有部分热工自动化子系统,但无协调功能的机组;第3类是自动化程度最低,
主动式网络(active network)是为解决当前网络基础设施适应性及灵活性差、服务更新困难提出的一种全新的网络概念.它是一种可编程的计算机网络.用户可以通过在网络节点运行自
建立了考虑转子集肤效应和非线性因素的逆变器供电感应电机的数学模型与仿真模型,为提高仿真精确度,对稳态仿真方法进行了研究.对交流传动系统的仿真结果与实验结果进行了比
文章应用Goguen等人的结论证明并得到了几个结构化对象演算的基本定理.一方面,这些定理保证了该文可由现有对象的描述构造新对象的描述,并且可以把建立在现有对象上的定理作
提出了一种研究多区域互联系统优化无功价格的方法.系统内的无功支持除了能减少网损和改善电压安全性外,还能增加系统向外传送功率的能力,从而获得巨大的经济效益.提出以无功
文章介绍了一种具有潜在经济效益的新技术,该技术结合大气压下介质阻挡放电图形处理方法(文章中称为“等离子印刷”)和“电流电镀”的方法,该技术可以用于FPC的生产。该技术
首先分析平衡系统中ASVG的动态行为,不平衡系统中连接线上正序电流、负序电流对直流侧电容电压的影响,得出系统不平衡情况下ASVG交流侧有负序电压和三次谐波电压分量的结论.