论文部分内容阅读
概念实体的表达往往具有一定的模糊性,这种模糊性是蕴含在在语义中出现的。使用合适的概念模型来表达模糊语义具有重要的意义。模糊语义细胞作为最小的模糊概念的表示单元,在数据挖掘、机器学习以及知识发现中具有重要的作用。在概念空间(论域)Ω上,模糊语义细胞L=
被称为“关于Pi”,“类似Pi”以及“和Pi接近”的语义标签,其中P代表概念i的原型,d是定义在论域Ω上的距离函数,δ则是概念空间中定义在[0,+∞)上其他点和Pi的距离的概率密度函数。在模糊语义细胞的学习中需要关注语义的覆盖程度、描述的清晰程度以及描述的模糊性这三个因素,因此模糊语义细胞的学习原则很自然地就联系到最大覆盖率、最具典型性和最大模糊熵这三个指标之上。 本文中混合模糊语义细胞是建立在模糊语义细胞的学习基础之上,模糊语义细胞学习的最终目标是要寻找最佳的L来刻画具有某个概念的数据集,而混合模糊语义细胞则在此基础上做了更深一层的拓展,考虑具有若干个相关的概念的集合LA={L1,L2,…,Ln},其中每个概念都对应使用模糊语义细胞Li来描述第i个概念的数据集,混合模糊语义细胞的学习是为了能够寻找到一组最合适的权重参数W={w1,w2,…w2}来刻画某个概念在此概念集合(主题)中的影响程度或者是重要程度,借鉴之前的模糊语义细胞的学习原则,需要重新定义并计算语义细胞的两个数字特征:期望粒度R和模糊熵H。最终将学习混合模糊语义细胞的问题转化为了非线性约束优化问题。