加入收藏 | 设为首页 | 关于我们 尊敬的先生/女士,您好,欢迎光临论文世界网!

 联系我们

点击这里给我发消息 点击这里给我发消息
联系电话:158-6676-5171
 免费论文
基于博弈的正负加权关联规则的研究8
发布时间:2018-11-07 点击: 发布:中国论文期刊网
一是将数据转化成垂直格式后,可直接根据先验原理,用频繁(k- I)一项集来构造候选k-项集。即通过取频繁(k-1)一项集的TID集的交计算对应的k-项集的TID集,重复该过程,直至无法生成候选项集。
二是使用垂直数据格式后,每个k-项集的T1l〕集天然携带了计算该支持度所需的完整信息,不再需要扫描数据库来确定k-项集(k>1)的支持度。同时可以根据事务矩阵的性质进行列压缩,有效地删减冗余的事务列,提升计算效率。
性质4.6:只包含0或I个频繁k-项集的事务不可能包含任何频繁(K+1)项集。
新增计数数组m,记录每一个事务矩阵中每一列1的个数,存在一个I表示存在一个k项集,当k=1时统计的是事务的长度。当m=0时,说明该值对应的事务没有频繁k一项集,按上述性质表明该事务不能产生频繁(K十1)项集,因此删除该列。当m=1时,该事务值只存在一个频繁k项集,无法通过拼接生成频繁(k+l)一项集。根据以上原则,删除数组m中小于等于I的值对应的列向量,能有效地删除冗余事务,压缩矩阵的列数。
同时,由于拼接和剪枝的进行,行向量会进一步减少,使得m中小于等于0的值进一步增多,从而可以进一步压缩列向量,来缩小矩阵规模。

3.5.4 NAWARM MMS算法的实现步骤

输入:事务数据库D、各项目的权值和最小支持度数组MIS
输出:加权关联规则
    第一步:将集合i={i1,i2,…in}的所有项目按照给定的项最小支持度MIS由小到大进行排序。
第二步:扫描事务数据库,将数据库D转换成Tidset垂直数据表示形式(项目按新的字典序列排序),映射到布尔矩阵Di中,此时每一个项目都对应矩阵的一行,每一列对应该项目所出现在的事务TID号。通过项目权值计算每条事务的权重,分别将这些事务的权重存储在一维数组w中,同时计算数据库总权重Wo。新增计数数组m,记录矩阵中每一列1的个数。
第三步:扫描矩阵D1,将各行向量与权重向量做内积运算,并比上总权重W0得到每一项的加权支持度,与最小支持度阐值比较,生成频繁1项频集入。
第四步:由于拼接后的候选2项集C2最小支持度发生变化,因此需由C1而不是入中两个行向量做逻辑“与”运算拼接生成CZ和新的2项集矩阵D2,将行向量与事务权重向量做内积运算,删除小于阐值的2项集得到加权频繁2项集几,更新D2、计数数组m和权重数组w。
第五步:在L2中,根据项集的前缀不同,运用等价类划分的方式对候选项集进行划分,在划分后的子集中,对频繁项集进行挖掘。将矩阵D2按划分后的子集,分成不同的子矩阵。如根据表4.7和4.8中的数据,频繁2项集可划分成以B和O开头的两个等价类,矩阵D2划分成Db2和Do2两个子矩阵,计数数组m分成mb和mo.
第六步:在划分后的子空间中,根据新的计数数组,删除冗余矩阵列(事务),更新划分后的子矩阵,在新的矩阵中,利用优化的拼接和剪枝方法生成L3和D3,更新数组m和w.
第七步:当k>2时,处于同一个等价类里的k项集,按照步骤六的方法生成频繁(k+l }-项集和新的矩阵Dk,直至结束。
第八步:合并L1、L2和所有等价类中的频繁项集生成全局加权频繁项集。

3.5.5 NAWARM MMS算法的实例及分析

利用表4.7、表4.8和表4.9中的数据进行分析。
1.据项最小支持度数组MIS对项集I进行升序排序,结果为I={B,A,O,M,C}。
2.扫描数据库,将原始的水平数据库转换成垂直数据库,新增事务权重数组w}计算出各条事务的权重w = { 0.5, 0.567, 0.633, 0.5, 0.467, 0.633, 0.575},记录数据库的总权重Wo=3.875 .
3.按照更新后数据库中项目的次序找到首个加权支持度大于等于其项最小支持度闺值的数据项目,将其加入C1,按顺序将C1中各个项的加权支持度与其对应的项最小支持度相比较,最后得到L={B,O,M,C}
4.根据c1生成C2。由于项目A为非频繁项,所以以A为前缀的2项集均为非频繁项,排除相应项集后得到CZ一{BA,BO,BM,BC,OM,OC,MC}。按照同样的方法,我们可得到LZ=夏BA,BO,BM,BC,OM,OC,MC},生成新的矩阵D2,更新计数数组m.

QQ在线编辑

  • 在线咨询
  • 点击这里给我发消息
    客服小薇
  • 点击这里给我发消息
    晚班客服
  • 点击这里给我发消息
    客服小爱
  • 点击这里给我发消息

服务热线

  • 158-6676-5171
展开