加入收藏 | 设为首页 | 关于我们 尊敬的先生/女士,您好,欢迎光临论文世界网!

 联系我们

点击这里给我发消息 点击这里给我发消息
联系电话:158-6676-5171
 免费论文
基于博弈的正负加权关联规则的研究10
发布时间:2018-11-07 点击: 发布:中国论文期刊网

4.2实验数据采集

实验所用的统计软件是IBM,用于在关联规则挖掘研究中,生成标准的实验数据。
本实验主要用到以下几个参数:-tans表示数据集总共的实物记录数,-tlen表示事务平局宽度;-nitems表示真个数据集包含的项目数;-fname表示生成的数据集的名称;-ascii表示输出文件的格式。如果将参数设置成-ntrans1000 -tlen 10-niterms 100-fname data ascii,则生成一个ascii文件格式命名为data的数据集,其中含有事务数1000条,项目数100个,事务平均宽度为10的事务数据集。

4.3实验准备

实验所用主要设备为计算机。
    仿真实验主要分两组进行:
    第一组为在单支持度阈值下的对比实验,将基于聚类和矩阵压缩的加权关联算法NAWARM与NCMA算法进行测试,对比在不同事务数、不同支持度、不同项目数、不同稠密度下,产生的候选项集数量以及挖掘加权频繁项集的时间。
    第二组为在多最小支持度闽值下的对比实验,将改进的多支持度算法NAWARM MMS与文献中的DWARMMS(原算法)进行仿真测试,对比在不同事务数、不同支持度控制参数下,挖掘加权频繁项集消耗的时间。
 

4.4实验结果分析

4.4.1 单支持度下的对比实验

    本组实验将基于聚类和矩阵压缩的加权关联规挖掘算法NAWARM与NCMA算法进行仿真测试,对比两种算法在同一个数据集上的运行效率。使用数据生成器生成不同规格的数据集,分别从以下几个方面检测NAWARM算法和NCMA算法的性能:
    (1)在不同的最小加权支持度下,产生的候选项集的数量。
    (2)在不同的最小加权支持度下,产生加权频繁项集所使用的时间。
    (3)在不同的项目数下,产生加权频繁项集所使用的时间。
    (4)在不同的项目稠密度下,产生加权频繁项集所使用的时间。
    (5)在最小加权支持度相同、事务数不同的条件下,产生加权频繁项集所使的时间。
实验1:实验中的事务数为5000,项目数为50,事务平均宽度为15,测试在不同最小加权支持度闽位下,即指定最小支持度分别为:0.05, 0.1, 0.15, 0.2, 0.25和0.3的情况下,NAWARM算法和NCMA算法候选项集的数量变化情况。两种算法的候选项集数量变化的实验结果如表4.1所示,其对应的折线坐标图如图所示。我们可以着到改进算法NAWARM在运算时,产生的候选项集多于对比的NCMA算法,这是由于改进算法NAWARM在挖掘过程中产生了多张聚类表,对多个聚类表的挖掘结果全部合并成全局的候选项集,进行二次筛选,因此在挖掘出相同数量的频繁项集情况下,NAWARM算法产生的候选项集数比NCMA算法的多。

QQ在线编辑

  • 在线咨询
  • 点击这里给我发消息
    客服小薇
  • 点击这里给我发消息
    晚班客服
  • 点击这里给我发消息
    客服小爱
  • 点击这里给我发消息

服务热线

  • 158-6676-5171
展开