加入收藏 | 设为首页 | 关于我们 尊敬的先生/女士,您好,欢迎光临论文世界网!

 联系我们

点击这里给我发消息 点击这里给我发消息
联系电话:158-6676-5171
 免费论文
基于博弈的正负加权关联规则的研究3
发布时间:2018-11-07 点击: 发布:中国论文期刊网

 3.2.2改进的加权策略

给定事务数据库T}其项目的集合为i={i1,i2,…in},每一条事务t都对应I的一个子集,赋予一个事务标识符TID。集合i={i1,i2,…in}中的所有项目弓均被赋以权值w,来表示项目的重要性,其中0<_wf<1}  j={1,2,...,n}。根据每个数据项的权值,确定每一条事务记录的权重。
 

3.3算法改进措施

    以相关加权关联理论为基础,在分析了流行加权算法的优缺点的基础上,设计了一种基于聚类划分和压缩矩阵的加权关联规则挖掘算法,文中详细介绍了该算法的定义、基本原理以及优化策略,并通过实际例子展示算法过程。
    同时,为解决单支持度导致挖掘出低兴趣度的规则等问题,结合垂直数据库和等价类的思想,设计了一种基于多最小支持度加权关联规则挖掘算法NAWARM MMS算法,算法中不同项集对应给定的不同的最小支持度阐值,目的是通过对项目设置不同的最小支持度闭值,实现在不同重要程度的数据项中挖掘出数据量小,但更有价值的关联规则。

  3.3.1基于聚类的预处理和数据划分

    聚类分析是根据实际数据的特征,依据对象之间的相似程度,将数据划分到多个类或簇的过程。是一种非监督的学习方式,要求是簇内相似度高,簇间相似度低。获得数据的聚类分布状况后,分析聚簇集合,观测簇数据特征。可采用聚类分析作为其他数据挖掘算法(如关联规则、预测算法)的预处理步骤。
    不同的数据类型、聚类目标和应用场景,决定了不同聚类算法。常见的聚类算法包括以K-Means为代表的基于划分的方法,以CRUE. BIRCH为代表的基于层次的算法,以DBSCAN为代表的基于密度的方法,以STING为代表的基于网格的方法等等,考虑到算法的简洁高效性,以及基于划分方法的特点,进行关联分析时通常选取基于划分的经典聚类算法K-Means算法或其衍生算法做数据预处理。
K-Means算法是一种基于划分的聚类方法,核心思想是从所有对象中随机选择k个作为初始质心,k为用户指定的参数,其确定将数据集分成多数个块(簇),将所有对象逐步分配到每个簇中,分配的标准是该对象离所选簇的质心最近,每完成一次分配,簇的质心进行一次更新,通常用相似度来度量某个待分配对象到各个簇质心的距离。重复上述步骤,直至选择的目标函数收敛,也就是所有对象不会从一个簇转移到另一个,也即质心不在改变。通常选择误差的平方和作为度量相似度的目标函数,定义如下:

QQ在线编辑

  • 在线咨询
  • 点击这里给我发消息
    客服小薇
  • 点击这里给我发消息
    晚班客服
  • 点击这里给我发消息
    客服小爱
  • 点击这里给我发消息

服务热线

  • 158-6676-5171
展开