论文部分内容阅读
针对非结构化大数据发布中的隐私保护问题,提出了一种基于改进的可伸缩l-多样性(improved scalable l-diversity,Im SLD)大数据发布隐私保护方法。该算法采用基于两阶段条件随机场的命名实体识别(named entity recognition,NER)方法将非结构化数据表示为结构化形式,设计一种改进的可伸缩l-多样性算法来对表现良好的非结构化数据进行匿名化,实现保护非结构化大数据发布的隐私,通过Apache Pig实现Im SLD算法来使其具有可伸缩性。实验表明与MRA和