Internet中的新词识别

来源 :北京邮电大学学报 | 被引量 : 3次 | 上传用户:laoxu111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别.实验表明,该方法不仅可以根据词串的出现规律区分出新词和常用的单字组合,改善传统方法因固定n元模式匹配而导致的僵化现象,而且解决了"长词中包含短词"的问题,提高了新词识别的准确率.
其他文献
期刊
提出了一类基于离散余弦变换(DCT)的正交频分复用(OFDM)-N重最小频移键控(NMSK)/N重正交最小频移键控系统(NQMSK).该类系统将NMSK调制方式与基于DCT的OFDM多载波技术结合在一起,尽管
如何保护密钥的安全性是一个重要的安全问题.为了应对这个问题,提出了一个先动的可公开验证服务器辅助秘密共享方案,方案中秘密可公开验证的共享在用户和一组服务器中,秘密重构是
针对多输入多输出(MIMO)下行系统中基于迫零波束成形(ZFBF)的多用户贪婪选择算法复杂度高的问题,给出了一个用户丢弃准则.采用该准则的改进算法相比已有算法不仅性能上几乎没有任
为解决移动台定位时存在的多址干扰和远近效应,提高定位精度,提出了一种基于并行干扰删除的移动台定位算法.该算法利用迭代检测和并行干扰删除来减小不同基站所发下行定位信
多入多出系统中的迭代树搜索(ITS)检测会遇到某些比特的对数似然比(LLR)无法确定的情况,需采用赋常数值的方法解决,但这会影响系统性能.为此,提出一种改进的软检测方案,通过合适
利用格林函数法求解电振子激励下源搅拌混响室二维模型中的电场强度,并据此从场均匀性和统计特性的角度分析了2种因素对源搅拌混响室性能的影响,即腔体品质因素的降低和激励元
利用量子纠缠交换的思想,给出了一个(n-1,n)门限量子秘密共享方案(QSS).发送方利用局域幺正操作和纠缠交换,将子秘密分发给每个参与者.双方通过随机非对称使用消息模式和控制模式保证