论文部分内容阅读
近年来,在全球向信息化社会发展的趋势下,实时通信成为人们日常生活的重要部分。随着固定网络、移动通信网络和互联网的结合,语音服务得到了广泛的应用。但由于垃圾语音的影响,语音服务遇到了业务拓展的阻碍。垃圾语音影响了用户通信的安全,浪费了资源带宽,严重的情况下甚至会影响社会稳定。在确保用户正常通信的同时,需要及时对恶意用户加以限制。针对垃圾语音过滤的研究,已有多方面的成果。作为不影响用户通信的技术,呼叫模型分析具有一定的有效性,取得了一定的进展。但现有的呼叫模型无法动态的反映用户的特征,垃圾语音易于绕过检测机制,对通信的影响较大。针对用户呼叫行为改变的情况,无法自适应应对,灵活性较差,需要加以改进。结合用户呼叫行为的特征分析,设计了基于流数据聚类分析的垃圾语音过滤机制。以呼叫记录中主被叫用户关系、呼叫时间和持续时间三个参数为基准,引入用户日常生活习惯,提出了呼叫交互特征、呼叫频率及其分布和呼叫持续时间分布三个特征参数,使得垃圾语音难以伪装呼叫行为。结合特征模型的数据特点,提出了分类型的数据相似度度量标准。同时引入流数据算法对特征数据进行行为特征相似性比较和聚类分析。流数据算法能够动态输出特征结果,自适应用户呼叫行为的改变。最后,运用最近邻分类的思想,检测用户是否是垃圾语音制造者。通过仿真分析可以看出,多种特征结合的数据模型对用户类型的识别能力略有增长;在不同数据相似度的仿真下,过滤性能明显提高;在引入流数据分析算法之后,检测性能并没有大量降低,处理时间相对较少。流数据算法动态分析行为特征,具有良好的检测性能。