前言
数据挖掘课程讲到了Apriori关联规则挖掘算法,老师要求完成实验并分析,所以就来写博客啦。
正文
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。
实验要求:
- 合理的算法开发工具+数据库模式
- 给定minsupport,测试算法时间与数据量大小的关系
- 给定数据量,测试算法时间与minsupport的关系
我采用的是python3.5+Sql server2012的实验环境,最后图形化实验结果靠的是python的matplotlib库,网上也有很多教程的。
数据库是随机生成的,数据量分别是1W,2w,5w,10w,20w,50w,100w。形式如下:
A C E I J
C E F G H
C E E G H I J
C E F G H J
B C G H
B C F H J
C E H I
A B E F H
C G J
….
算法框架
|
|
Apriori_gen(Lk-1)的算法步骤:
成果
后记
- 从这个实验接触了python与Sql server的连接过程,熟悉使用了pymssql,异常好用。
- python的速度还是不能和C语言之类的比,只能说数据处理更方便,所以我这个程序也好写很多。如果叫我用Java写我是拒绝的。