论文部分内容阅读
随着计算机技术与人工智能理论的发展,模式识别的理论与方法研究已经取得很大进展,并已广泛应用于声音和语言识别、文字识别、指纹识别、图像分析等领域。近年来,网络数据的分析和处理成为模式识别的重要研究内容。面对网络这种新型、动态的大规模关系数据,随机图及其所衍生出的复杂网络理论受到越来越多的关注。研究表明,随机图可以更好地模拟现实的关系数据,在分类、聚类、匹配等模式识别经典问题中都显示出明显优势与发展潜力。本文立足于一种重要的随机图模型——随机点积图,重点研究了随机点积图在自动图像标注、多社团属性关系传播、网络攻击检测等多个模式识别新兴热点问题中的应用,并从理论上对随机点积图在保持模长归一化的约束下进行了进一步的推广。随机点积图是近年来新提出的一种点-边随机图模型,它通过对节点的随机赋值,依照点积规则计算节点之间的连接概率,从而通过节点的随机性体现出边的随机性,形成随机图。随机点积图具有聚类性、传递性、度幂律性等多种重要性质,可以很好地拟合现实存在的各种图结构和网络。本文从概率期望的角度证明了随机点积图的传递性,将在一维空间中的证明过程推广到高维空间中;传统的传递性质只涉及节点连通时的情况,本文提出了在随机点积图中节点不连通时边概率的传递性,并给予证明。对于随机点积图的求解问题,本文研究了随机点积图对关联图的模拟,并给出求解方法。该解法从关联图的加权邻接矩阵出发,将关联图的随机点积化问题转化成了矩阵范数逼近问题,通过对加权邻接矩阵的谱分解得到节点的赋值。图像标注是基于内容的图像检索的重要和具有挑战性的课题。随着数字图像数据量呈爆炸性增长,如何有效检索海量的图像数据是个人与商业搜索引擎都迫切需要考虑的问题。自动图像标注能提供更符合人类检索习惯的文本输入查询方式,是图像检索中的一项关键技术。本文提出了一种基于随机点积图的图像标注算法,该算法首先构造了一个融合了底层特征间、标注词间以及图像与标注词间的相似关系的关联图,再利用随机点积图对该关联图进行重构,挖据出图像的底层特征间和标注词间隐藏的相似关系,并形成状态转移概率,结合重启式随机游走,最终实现自动图像标注。基于随机点积图的图像标注算法将基本标注阶段与标注改善阶段结合起来,从整体进行关联图的随机点积重构,并实现自动标注。在多个通用图像库上的实验证明,该方法可以有效提高图像标注精度,尤其在图像库较小时,具有明显优势。近年来社会网络的研究取得了高速发展,其应用也越来越普及。与传统的模式识别不同,网络分析侧重个体之间相互联系的分析和挖掘,所以从模式识别的角度来看,网络分析也称为“链接识别”(Link recognition)或者“链接分析”(Link analysis)。在网络中,个体与个体之间围绕共同的兴趣和话题相互联系形成不同的社团。当前,社团已经成为了解网络结构、功能和增长机制的重要工具。由于不同社团中存在的数据关系大不相同,社团之间属性关系的传播已成模式识别中一个挑战性的问题。本文提出了一种基于随机点积图的多社团属性关系传播算法。该方法从已知属性关系的社团入手,结合目标社团中的个体特征,用随机点积图对当前属性关系不断演化,挖掘出目标社团中隐藏的属性关系。该方法可以同时实现对社团中成员的划分与属性关系的跨社团传递。通过在多个实际社会网络数据库的实验表明,该方法可以准确揭示社团中隐藏的属性关系。数据降维与嵌入是模式识别中的重要研究问题。对于关系数据,随机点积图可以将图中的节点嵌入到向量空间中。关系数据经过核函数形成的相似矩阵往往具有相同的对角元,基于这一重要性质,本文提出一种改进的随机点积图模型——保持模长归一化的随机点积图,它可以将图嵌入到一个球面空间中。此外,对于归一化的特征数据,现有的降维方法都没有考虑数据的归一化性质,将保持模长归一化的随机点积图模型用于这类数据的降维中,则降维后的特征数据依然是模长归一化的。在这种随机点积图模型的解空间中,欧氏距离与夹角余弦是等价的。本文从理论上给出了该模型的求解方法与收敛性分析。在多个真实数据库上的聚类实验表明,该模型可以得到更具可分性的节点嵌入结果。随着互联网技术的发展,大规模的动态网络通过计算机和其他设备将人类连接起来,这种大规模网络已经成为人们获取信息和知识的重要来源。为增强网络用户的安全性,网络攻击行为检测成为模式识别在网络分析中亟待解决的新问题。本文提出了一种新的基于保持模长归一化随机点积图的网络攻击检测方法,根据待测网络拓扑结构的随机点积图谱空间坐标识别欺骗或攻击。本文从理论上证明了攻击者与普通节点分别落在谱空间的不同区域中。保持模长归一化随机点积图将节点的谱坐标合理分布于球面空间中,并在该球面空间中识别攻击行为,尤其可以探测出在原始网络拓扑结构中难以识别的协同攻击。与现有基于拓扑的攻击检测方法相比较,对于各种形式的协同攻击,本文方法可以显著提高攻击检测的有效性及效率。