基于滑动窗口的流数据频繁模式挖掘算法

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:ana504
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文采用一种基于滑动窗口的流数据频繁模式算法DSFP-SW(Data Stream FrequentPattem based-on Sliding window)进行批处理式挖掘。该算法将滑动窗口划分为几个基本的窗口,利用改进的频繁模式挖掘算法,计算每个基本窗口的临界频繁项集。以前缀树(DSFP-SW-tree)来存储每个基本窗口的临界频繁项集,结合剪枝算法,快速挖掘滑动窗口中所有频繁模式。实验采用IBM数据发生器产生合成数据,证明了该算法的有效性。
其他文献
介绍了Si-69对NR/CIIR并用胶性能的影响.结果表明:Si-69在NR/CIIR并用胶的有效和半有效硫化体系中,能显著地提高并用胶的粘弹性能和抗硫化返原性,使胶料的300%定伸应力、回弹性明显提高,压缩永久变形减小,升热大幅度下降.而在NR/CIIR的有效硫化体系中加入Si-69,对并用胶料性能的改善更大,胶料的综合物理机械性能要高于NR/CIIR的半有效硫化体系.
研究白炭黑和Si-69偶联剂在工程轮胎上层胶中的应用效果。试验结果表明:加入白炭黑和Si-69偶联剂能使胶料的综合物理性能得到明显提高,特别是抗撕裂性能、耐磨性能提高幅度较大,轮胎耐刺扎、抗崩花掉块性能得到改善,进一步提高了工程轮胎的使用寿命.
高沸醇(High Boiling Solvents,简写为HBS)木质素是用高沸醇溶剂法从松木、稻草中提取的一种新型的环境友好材料.本文报告HBS木质素羟甲基化改性后共沉物对丁腈橡胶(NBR)补强效果以及环氧化高沸醇木质素对氯丁橡胶改性的影响.实验结果表明,添加HBS木质素羟甲基化衍生物能改善NBR的性能,尤其是扯断伸长率有明显的效果,有良好的耐老化性能,明显优于炭黑.将高沸醇木质素与环氧氯丙烷进
采用1,4-丁二醇水溶液为溶剂的高沸醇溶剂法,从松木、稻草或稻壳等原料制备高沸醇木质素.使用上述原料,在190~220 ℃的1,4-丁二醇水溶液中蒸煮1~3 h后,分离反应产物,得到固体纤维素与高沸醇木质素-丁二醇溶液.不溶于水的高沸醇木质素通过加水沉淀的方法,从反应后的液体混合物中分离.从松木和稻草、稻壳等原料制备高沸醇木质素的得率分别大于25%和11%.从松木中提取的HBS木质素的ω(灰分)=
术语同义词对的自动发现和识别在文献检索领域有着重要的研究意义和应用价值。本文提出一种在文献中自动抽取同义词的方法,它将问题分为(1)抽取同义词对;(2)确认同义词对是否真正匹配,两步的完成都借助了机器学习的方法。实验证明本文的方法是有效的。
本文将语义分析引入到文本聚类的任务中,提出了一种基于知网的特征抽取方法。针对词语的一词多义的现象,从全文的角度考察词的语义,结合相关概念场,将词义排歧转化为对相关概念场中的词在全文出现频率的计算。实验证明,经过词义消歧后,将文本中的词语映射为知网中的义原,显著地降低了特征空间的维数,使聚类宏平均F1值提高了6个百分点。
现有的关键词抽取技术仅仅是对正文词汇的抽取,不能够抽取隐含主题。隐含主题的抽取是关键词自动抽取技术的难点。众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法,可以有效抽取隐含主题。该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K
数字媒体技术的快速发展,使得对海量视音频信息进行高效检索的需求越来越广泛和迫切。本文介绍的关键音检索系统,融合了语音处理技术和信息检索技术,能够对海量音频信息进行快速的检索,找到检索词发音的准确位置,为语音内容自动检索提供了新的手段。该系统采用音素矩阵的索引和检索算法,构建在自主研发的并行计算平台之上,具有高准确率、稳定可靠和海量处理能力等优点。实验数据表明,该系统在检索准确度、速度和存储等方面均
在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法,但在计算多个投影方向的时间复杂性太高,且投影方向的个数难于确定。本文针对这一问题提出一种新的计算方法,即根据剩余文档矩阵信息递归计算每步的主投影方向及判断投影方向个数,并将该方法应用于文本分类,在Reuters-21578文档集上进行实验,结果表明此方法能有
Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。通过在传统LDA模型中融入文本类别信息,本文提出了一种附加类别标签的LDA模型(Labeled-LDA)。基于该模型可以计算出隐含主题在各类别上的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷。与传统LDA模型的实验对比表明,基于Labeled-LDA模型的