加入收藏 | 设为首页 | 关于我们 尊敬的先生/女士,您好,欢迎光临论文世界网!

 联系我们

点击这里给我发消息 点击这里给我发消息
联系电话:158-6676-5171
 免费论文
基于博弈的正负加权关联规则的研究7
发布时间:2018-11-07 点击: 发布:中国论文期刊网
定义4.9:如果某k-项集X的加权支持度大于等于其最小支持度阈值,即wsup(x) >_ MIS}X},则称X为频繁的。
需要注意的是,多最小支持度被引入后,加权频繁项集的最尺度闭值因项目集中最小项目支持度的变化而变化,使得经典算法的先验原理不再适用。
可以发现,当新加入的项目的最小支持度低于项集的最小支持度时,整体的最小支持度发生变化,使得Apriori的递推性质不再成立。因此,在多最小支持度策略下,可将数据集合中所有的项按其各自的最小项支持度进行由低到高的排序,即更新原字典序,使字典中项目按其最小支持度由小到大排序。经过这样的排序处理后,容易得到非频繁项集的某些特定超集也是非频繁的这一性质,利用该性质可有效地对候选项进行枝剪,来求出加权频繁项集。
    性质4.3事务记录按其所包含的项的最小支持度升序排序后,若数据项lj是非频繁的,则以ij为前缀的项集也是非频繁的。
  性质4.4:当X(k-1项集)属于Y(k项集),且X与Y的前缀不相同时,若X是非频繁的k-1项集,且Y的前两项具有相同的最小支持度,那么该候选k项集Y不是频繁的。
 

3.5.2加权项集的等价划分

当事务集中的项按照最小支持度的升序进行重新排列后,字典序列得以更新,之后的步骤将全部按照新的序列进行下去,此时将候选项集按照前缀的不同,划分到不同的等价类中,可以使其在局部子空间里候选项集的拼接和剪枝。
性质4.5 : Ix. IY为频繁(k-1)一项集的项的前缀,且Ik<IY,分别以Ix和IY为前缀将该频繁项集划分为两个子集Tx, TY,则由两个子集生成的候选k-项集既不重复也是完备的。
证明:(反证法)如AC为非频繁项集,AB, BC均为频繁2项集,则拼接生成候选3项集ABC,如果ABC是频繁的,由于以A为前缀的项集支持度阐值相等,根据先验原理,频繁项集的子集也是频繁的,所以以A开头的ABC的子集也是频繁
的,即AB , AC是频繁项集,与假设矛盾。因此所有候选项集均可由等价子空间的项目集拼接生成。可推广至一般情况。
如L2={AB, AC, AD, BC, BD},从L2中可以得到等价类:Tn=[A]={B, C,D},TB=[B]={C, D},通过拼接我们可以看到,由等价类[A]产生的候选项集{ABC,ABD, ACD},和由等价类[B]产生的候选项集{BCD}既不重复也是完全的,符合性质4.5。
从上例可以看到,运用等价类划分项集后,可以将项集空间划分成相互独立的子空间,单独生成高维的候选项集。由于子空间中最小支持度闽值不变,因此先验原理的条件得到满足,使得高效的拼接和剪枝方法可以继续使用,从而有效提高了挖掘基于多支持度的频繁项集的效率。
在对拼接生成的候选k-项集X进行剪枝时,剔除拼接的两个k-1项集和前缀不同的1个k-1项集,只需对X的k-3个子集少1项集)进行检测,如果其中有一个不在频繁(K-1)项集中,则X被剪枝。

3.5.3垂直数据的优化

大多数的频繁项挖掘算法都是从TID项集格式(水平数据格式)的事务集挖掘频繁模式,另外数据也使用项一TID集格式,即垂直数据格式。在使用垂直数据格式后,对应的垂直事务矩阵会表现出一些良好的特性。

QQ在线编辑

  • 在线咨询
  • 点击这里给我发消息
    客服小薇
  • 点击这里给我发消息
    晚班客服
  • 点击这里给我发消息
    客服小爱
  • 点击这里给我发消息

服务热线

  • 158-6676-5171
展开