短信变体分词与提取方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:nazhihudie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着移动通信网络的快速发展而滋生蔓延的垃圾短信问题,不仅给许多手机用户的工作和生活造成了困扰和经济损失,也给通信网的运营者带来了压力和挑战。一些不法之徒利用短信廉价、便捷的特点,将其变为营销牟利、违法犯罪的工具,无孔不入的向终端用户渗透。据统计,在2015年内,仅360手机卫士就为全国手机用户拦截各类垃圾短信约318.3亿条,平均每天识别和拦截垃圾短信8720.5万次。因此,通过分析和研究海量的垃圾短信息的文本特点,建立准确有效的违规短信识别、分类和拦截机制,从运营商、伪基站、用户终端等多个环节阻断违规违法信息的传播成为维护社会稳定和人民利益的重要手段。在短信的监管和治理工作中,对短信文本进行合理的分词是识别、分类、拦截等任务的首要前提。常用分词工具因难以适应违规类短信语法不规范,字词多变体,特殊符号混杂等特点,致使分词精度严重下降,难以胜任实际业务需求。本文基于某企业实际项目,通过对传统分词方法的调研和对真实短信文本的分析,将改进的点互信息PMI与本文提出的cross-skip-bi-grams交叉跳跃二元模型相结合,利用加入上下文特征的统计方法来灵活应对短信变体的分词难题;并且基于现实应用场景,系统地提出了最优切分、分词合并、增量训练与反馈训练等方法来提高该分词方法的实用性和鲁棒性。实验结果标明,该方法在违规短信上的分词精确度和召回率较开源工具和传统方法有所提升,并为后续变体识别工作的进行奠定了基础。由于部分类别短信存在特征词多变体的特点,致使监控系统无法在满足关键词覆盖范围和新词时效性的同时准确识别各种字词变体。因此本文结合变体短信分词结果,提出基于语义向量空间的变体识别提取方法。先将分词结果映射到向量空间,通过向量相似度来聚合具有语义相似度的词汇,然后经过过滤提取实现自动发现新变体候选词的功能。同时针对静态训练方法的缺点,提出增量训练模型的方法。通过在真实数据上的空间构建和多个的实例的结果分析,验证了算法的实践效果和模块的基本功能。
其他文献
我国一直是一个农业大国,农村人口众多,要实现社会主义现代化强国,实现中华民族的伟大复兴,首当其冲是要解决好农村农民问题,城乡一体化发展是推动农村农业发展的重要举措。中国共产党第十九次全国代表大会上,党和国家领导人着眼于国家事业全局,在深刻把握现代化建设规律和城乡关系变化特征的基础上,提出实施乡村振兴战略,这一战略目标旨在让亿万农民过上更加美好的生活,它不仅能够解决当前农村工作的关键性问题,更为未来
著名编剧陈彦近年来创作了大型秦腔现代戏《西京故事》,该剧以强烈的社会责任感审视现实和关注民生,在戏剧美学方面呈现出独特的审美张力,达到了思想性和艺术性的高度统一。
本文通过对舞蹈发展的历程进行了研究与分析,并发现了新时期在舞蹈创作中的一些不足,逐渐挖掘了舞蹈发展在新时期的发展方向,力求能为新时期舞蹈的发展提供一些参考。
警察体能,是公安特警反恐作战的基础。我国公安民警体能训练存在一线民警思想认识不够、训练缺乏系统性等问题,应从训练理论、训练过程、训练评价等方面进行科学化探索,从而
近两年来,边境地区各种突发性事件时有发生,驻扎在边境一线的公安边防派出所是处置边境辖区各种犯罪活动的主要力量。然而当前公安边防派出所在应急力量建设上还存在不足。建
原发性干燥综合征是一种慢性炎症性自身免疫性疾病,主要累及外分泌腺的上皮细胞,如泪腺、唾液腺,从而产生相应的眼干、口干、腮腺炎等临床表现。该疾病也可侵犯身体的其他组
本文利用宁夏23个气象台站1961-2004年共44a的大风日数、沙尘暴日数、扬沙日数资料,统计分析了宁夏大风日数的空间分布和时间分布特征,结果表明:近44a来宁夏存在2个大风中心—
本文主要论述教育心理学知识与钢琴教学相结合的实用性与重要性,尤其利用兴趣这一心理学知识点,既能指导教师在教学中做到有的放矢,同时也符合现代社会学科发展相互交叉、渗
自20世纪90年代末中国住房市场改革以来,我国房地产行业迅猛发展,房价居高不下。有学者认为尽快推出房地产税立法,全面部署房地产税制改革对抑制房价有一定的作用。因此,研究