加入收藏 | 设为首页 | 关于我们 尊敬的先生/女士,您好,欢迎光临论文世界网!

 联系我们

点击这里给我发消息 点击这里给我发消息
联系电话:158-6676-5171
 免费论文
基于博弈的正负加权关联规则的研究12
发布时间:2018-11-07 点击: 发布:中国论文期刊网

4.4.2多支持度算法的对比实验

    本组实验是将改进的多最小支持度挖掘算法NAWARM MMS与DWARMMS算法进行对比测试。项目权值分配同DWARMMS算法,最小支持度阈值的方式与原算法一样,即Smin(i)=βf (i)其中 f (i)为数据项i支持数的百分比,β则是一个用来控制最小支持度闽值整体水平的参数,通过改变β的大小,整体上调整所有项目的最小支持度闽值水平。实验中,由于多支持度阈值的随机生成,容易导致整体阈值水平的较大幅度波动,因此采用随机函数f (i)为项日分配址小支持度,β控制闭值整体水平,并固定项目数和项目稠密度。
实验1:实验中的项目数为60,事务平均宽度为30 ,β=0.3,测试在不同事务数下,NAWARM MMS算法和DWARMMS算法产生频繁项集的运行时间。数据集的事务数,以及两个算法的运行时间坐标图如图4.8所示。

图4.8不同事务数下两种算法的运行时间
    实验2:实验中的数据集的事务数为5000,项目数为60,事务平均宽度为30,测试在不同的整体闲值水平即β取不同值下,NAWARM MMS算法和DWARMMS算法产生频繁项集的运行时间。数据集的事务数,以及两个算法的运行时问坐标图如图4.9所示
分析实验1的对比曲线图4.8,可以看到两种算法的耗时随数据集中事务数的增加呈现线性增长态势,但改进算法的运行时问的增长速度明显小于原算法,即增长率约为原算法的一半,体现了NAWARM_ MMS算法良好的可伸缩性。

图4.9  β变化下两个算法的运行时间对比
分析实验2的对比图4.9可以看到随着β取值的增加,整体阈值水平升高,挖掘的频繁项集急剧减少,因此运行时间显著下降,山于改进算法只需扫描一次数据库,并且同一等价类内挖掘频繁项集的过程满足先验递推性质,可以利用优化的拼接和剪枝方法去除了大量的候选项集。此外,改进算法通过向量知阵间的交集操作求解项集的加权支持度,而原算法通过对数据库大量而重复的扫描计算项集的加权支持度。实验证明,改进算法的性能优于原算法的性能。
 

4.5本章小结

    本章在以第三章的理论为基础,在分析了流行加权算法的优缺点的基础上,设计了一种基于聚类划分和压缩矩阵的加权关联规则挖掘算法,文中详细介绍了该算法的定义、基本原理以及优化策略,并通过实际实验进行论证。
同时,为解决单支持度导致挖掘出低兴趣度的规则等问题,结合垂直数据库和等价类的思想,设计了一种基于多最小支持度加权关联规则挖掘算法NAWARM-MMS算法,算法中不同项集对应给定的不同的最小支持度阐值,目的是通过对项目设置不同的最小支持度闭值,实现在不同重要程度的数据项中挖掘出数据量小,但用户更感兴趣、更有价值的关联规则。文中详细介绍了该算法的思想和步骤,然后结合实例对该算法的实现过程进行阐述,通过列举实例说明了该算法在一定条件下的有效性和优越性。
实验使用IBM数据生成器生成数据集,测试在不同数据集规模、不同项目数、不同事务稠密度、不同最小支持度下,算法的运行效率。首先对用改进算法测试在单支持度下的运行情况,分析其与对比算法的差异;然后在多支持度闭值下,测试NAWARM-MMS算法与原算法的性能。实验结果表明在相同的最小加权支持度闪值条件下,NAWARM算法产生的候选项集数量高于NCMA算法,但运行时间少于NCMA算法,在多支持度阈值下,NAWARM一 MMS算法产生的加权频繁项集所使少的时间也少于原始的DWARMMS算法。综合实验分析结果,改进算法在定条件下表现出较好的稳定,更能适用于数据很多情况下的挖掘。

QQ在线编辑

  • 在线咨询
  • 点击这里给我发消息
    客服小薇
  • 点击这里给我发消息
    晚班客服
  • 点击这里给我发消息
    客服小爱
  • 点击这里给我发消息

服务热线

  • 158-6676-5171
展开