文章详情页

python 决策树算法的实现

浏览：18日期：2022-07-09 08:08:53

’’’数据集：Mnist训练集数量：60000测试集数量：10000------------------------------运行结果：ID3(未剪枝) 正确率：85.9% 运行时长：356s’’’import timeimport numpy as npdef loadData(fileName): ’’’ 加载文件 :param fileName:要加载的文件路径 :return: 数据集和标签集 ’’’ # 存放数据及标记 dataArr = []; labelArr = [] # 读取文件 fr = open(fileName) # 遍历文件中的每一行 for line in fr.readlines(): # 获取当前行，并按“，”切割成字段放入列表中 # strip：去掉每行字符串首尾指定的字符（默认空格或换行符） # split：按照指定的字符将字符串切割成每个字段，返回列表形式 curLine = line.strip().split(’,’) # 将每行中除标记外的数据放入数据集中（curLine[0]为标记信息） # 在放入的同时将原先字符串形式的数据转换为整型 # 此外将数据进行了二值化处理，大于128的转换成1，小于的转换成0，方便后续计算 dataArr.append([int(int(num) > 128) for num in curLine[1:]]) # 将标记信息放入标记集中 # 放入的同时将标记转换为整型 labelArr.append(int(curLine[0])) # 返回数据集和标记 return dataArr, labelArrdef majorClass(labelArr): ’’’ 找到当前标签集中占数目最大的标签 :param labelArr: 标签集 :return: 最大的标签 ’’’ # 建立字典，用于不同类别的标签技术 classDict = {} # 遍历所有标签 for i in range(len(labelArr)): # 当第一次遇到A标签时，字典内还没有A标签，这时候直接幅值加1是错误的， # 所以需要判断字典中是否有该键，没有则创建，有就直接自增 if labelArr[i] in classDict.keys(): # 若在字典中存在该标签，则直接加1 classDict[labelArr[i]] += 1 else: # 若无该标签，设初值为1，表示出现了1次了 classDict[labelArr[i]] = 1 # 对字典依据值进行降序排序 classSort = sorted(classDict.items(), key=lambda x: x[1], reverse=True) # 返回最大一项的标签，即占数目最多的标签 return classSort[0][0]def calc_H_D(trainLabelArr): ’’’ 计算数据集D的经验熵，参考公式5.7 经验熵的计算 :param trainLabelArr:当前数据集的标签集 :return: 经验熵 ’’’ # 初始化为0 H_D = 0 # 将当前所有标签放入集合中，这样只要有的标签都会在集合中出现，且出现一次。 # 遍历该集合就可以遍历所有出现过的标记并计算其Ck # 这么做有一个很重要的原因：首先假设一个背景，当前标签集中有一些标记已经没有了，比如说标签集中 # 没有0（这是很正常的，说明当前分支不存在这个标签）。式5.7中有一项Ck，那按照式中的针对不同标签k # 计算Cl和D并求和时，由于没有0，那么C0=0，此时C0/D0=0,log2(C0/D0) = log2(0)，事实上0并不在log的 # 定义区间内，出现了问题 # 所以使用集合的方式先知道当前标签中都出现了那些标签，随后对每个标签进行计算，如果没出现的标签那一项就 # 不在经验熵中出现（未参与，对经验熵无影响），保证log的计算能一直有定义 trainLabelSet = set([label for label in trainLabelArr]) # 遍历每一个出现过的标签 for i in trainLabelSet: # 计算|Ck|/|D| # trainLabelArr == i：当前标签集中为该标签的的位置 # 例如a = [1, 0, 0, 1], c = (a == 1): c == [True, false, false, True] # trainLabelArr[trainLabelArr == i]：获得为指定标签的样本 # trainLabelArr[trainLabelArr == i].size：获得为指定标签的样本的大小，即标签为i的样本 # 数量，就是|Ck| # trainLabelArr.size：整个标签集的数量（也就是样本集的数量），即|D| p = trainLabelArr[trainLabelArr == i].size / trainLabelArr.size # 对经验熵的每一项累加求和 H_D += -1 * p * np.log2(p) # 返回经验熵 return H_Ddef calcH_D_A(trainDataArr_DevFeature, trainLabelArr): ’’’ 计算经验条件熵 :param trainDataArr_DevFeature:切割后只有feature那列数据的数组 :param trainLabelArr: 标签集数组 :return: 经验条件熵 ’’’ # 初始为0 H_D_A = 0 # 在featue那列放入集合中，是为了根据集合中的数目知道该feature目前可取值数目是多少 trainDataSet = set([label for label in trainDataArr_DevFeature]) # 对于每一个特征取值遍历计算条件经验熵的每一项 for i in trainDataSet: # 计算H(D|A) # trainDataArr_DevFeature[trainDataArr_DevFeature == i].size / trainDataArr_DevFeature.size:|Di| / |D| # calc_H_D(trainLabelArr[trainDataArr_DevFeature == i]):H(Di) H_D_A += trainDataArr_DevFeature[trainDataArr_DevFeature == i].size / trainDataArr_DevFeature.size * calc_H_D(trainLabelArr[trainDataArr_DevFeature == i]) # 返回得出的条件经验熵 return H_D_Adef calcBestFeature(trainDataList, trainLabelList): ’’’ 计算信息增益最大的特征 :param trainDataList: 当前数据集 :param trainLabelList: 当前标签集 :return: 信息增益最大的特征及最大信息增益值 ’’’ # 将数据集和标签集转换为数组形式 # trainLabelArr转换后需要转置，这样在取数时方便 # 例如a = np.array([1, 2, 3]); b = np.array([1, 2, 3]).T # 若不转置，a[0] = [1, 2, 3]，转置后b[0] = 1, b[1] = 2 # 对于标签集来说，能够很方便地取到每一位是很重要的 trainDataArr = np.array(trainDataList) trainLabelArr = np.array(trainLabelList).T # 获取当前特征数目，也就是数据集的横轴大小 featureNum = trainDataArr.shape[1] # 初始化最大信息增益 maxG_D_A = -1 # 初始化最大信息增益的特征 maxFeature = -1 # 对每一个特征进行遍历计算 for feature in range(featureNum): # “5.2.2 信息增益”中“算法5.1（信息增益的算法）”第一步： # 1.计算数据集D的经验熵H(D) H_D = calc_H_D(trainLabelArr) # 2.计算条件经验熵H(D|A) # 由于条件经验熵的计算过程中只涉及到标签以及当前特征，为了提高运算速度（全部样本 # 做成的矩阵运算速度太慢，需要剔除不需要的部分），将数据集矩阵进行切割 # 数据集在初始时刻是一个Arr = 60000*784的矩阵，针对当前要计算的feature，在训练集中切割下 # Arr[:, feature]这么一条来，因为后续计算中数据集中只用到这个（没明白的跟着算一遍例5.2） # trainDataArr[:, feature]:在数据集中切割下这么一条 # trainDataArr[:, feature].flat：将这么一条转换成竖着的列表 # np.array(trainDataArr[:, feature].flat)：再转换成一条竖着的矩阵，大小为60000*1（只是初始是 # 这么大，运行过程中是依据当前数据集大小动态变的） trainDataArr_DevideByFeature = np.array(trainDataArr[:, feature].flat) # 3.计算信息增益G(D|A) G(D|A) = H(D) - H(D | A) G_D_A = H_D - calcH_D_A(trainDataArr_DevideByFeature, trainLabelArr) # 不断更新最大的信息增益以及对应的feature if G_D_A > maxG_D_A: maxG_D_A = G_D_A maxFeature = feature return maxFeature, maxG_D_Adef getSubDataArr(trainDataArr, trainLabelArr, A, a): ’’’ 更新数据集和标签集 :param trainDataArr:要更新的数据集 :param trainLabelArr: 要更新的标签集 :param A: 要去除的特征索引 :param a: 当data[A]== a时，说明该行样本时要保留的 :return: 新的数据集和标签集 ’’’ # 返回的数据集 retDataArr = [] # 返回的标签集 retLabelArr = [] # 对当前数据的每一个样本进行遍历 for i in range(len(trainDataArr)): # 如果当前样本的特征为指定特征值a if trainDataArr[i][A] == a: # 那么将该样本的第A个特征切割掉，放入返回的数据集中 retDataArr.append(trainDataArr[i][0:A] + trainDataArr[i][A + 1:]) # 将该样本的标签放入返回标签集中 retLabelArr.append(trainLabelArr[i]) # 返回新的数据集和标签集 return retDataArr, retLabelArrdef createTree(*dataSet): ’’’ 递归创建决策树 :param dataSet:(trainDataList， trainLabelList) <<-- 元祖形式 :return:新的子节点或该叶子节点的值 ’’’ # 设置Epsilon，“5.3.1 ID3算法”第4步提到需要将信息增益与阈值Epsilon比较，若小于则直接处理后返回T Epsilon = 0.1 # 从参数中获取trainDataList和trainLabelList trainDataList = dataSet[0][0] trainLabelList = dataSet[0][1] # 打印信息：开始一个子节点创建，打印当前特征向量数目及当前剩余样本数目 print(’start a node’, len(trainDataList[0]), len(trainLabelList)) # 将标签放入一个字典中，当前样本有多少类，在字典中就会有多少项 # 也相当于去重，多次出现的标签就留一次。举个例子，假如处理结束后字典的长度为1，那说明所有的样本 # 都是同一个标签，那就可以直接返回该标签了，不需要再生成子节点了。 classDict = {i for i in trainLabelList} # 如果D中所有实例属于同一类Ck，则置T为单节点数，并将Ck作为该节点的类，返回T # 即若所有样本的标签一致，也就不需要再分化，返回标记作为该节点的值，返回后这就是一个叶子节点 if len(classDict) == 1: # 因为所有样本都是一致的，在标签集中随便拿一个标签返回都行，这里用的第0个（因为你并不知道 # 当前标签集的长度是多少，但运行中所有标签只要有长度都会有第0位。 return trainLabelList[0] # 如果A为空集，则置T为单节点数，并将D中实例数最大的类Ck作为该节点的类，返回T # 即如果已经没有特征可以用来再分化了，就返回占大多数的类别 if len(trainDataList[0]) == 0: # 返回当前标签集中占数目最大的标签 return majorClass(trainLabelList) # 否则，按式5.10计算A中个特征值的信息增益，选择信息增益最大的特征Ag Ag, EpsilonGet = calcBestFeature(trainDataList, trainLabelList) # 如果Ag的信息增益比小于阈值Epsilon，则置T为单节点树，并将D中实例数最大的类Ck # 作为该节点的类，返回T if EpsilonGet < Epsilon: return majorClass(trainLabelList) # 否则，对Ag的每一可能值ai，依Ag=ai将D分割为若干非空子集Di，将Di中实例数最大的 # 类作为标记，构建子节点，由节点及其子节点构成树T，返回T treeDict = {Ag: {}} # 特征值为0时，进入0分支 # getSubDataArr(trainDataList, trainLabelList, Ag, 0)：在当前数据集中切割当前feature，返回新的数据集和标签集 treeDict[Ag][0] = createTree(getSubDataArr(trainDataList, trainLabelList, Ag, 0)) treeDict[Ag][1] = createTree(getSubDataArr(trainDataList, trainLabelList, Ag, 1)) return treeDictdef predict(testDataList, tree): ’’’ 预测标签 :param testDataList:样本 :param tree: 决策树 :return: 预测结果 ’’’ # treeDict = copy.deepcopy(tree) # 死循环，直到找到一个有效地分类 while True: # 因为有时候当前字典只有一个节点 # 例如{73: {0: {74:6}}}看起来节点很多，但是对于字典的最顶层来说，只有73一个key，其余都是value # 若还是采用for来读取的话不太合适，所以使用下行这种方式读取key和value (key, value), = tree.items() # 如果当前的value是字典，说明还需要遍历下去 if type(tree[key]).__name__ == ’dict’: # 获取目前所在节点的feature值，需要在样本中删除该feature # 因为在创建树的过程中，feature的索引值永远是对于当时剩余的feature来设置的 # 所以需要不断地删除已经用掉的特征，保证索引相对位置的一致性 dataVal = testDataList[key] del testDataList[key] # 将tree更新为其子节点的字典 tree = value[dataVal] # 如果当前节点的子节点的值是int，就直接返回该int值 # 例如{403: {0: 7, 1: {297:7}}，dataVal=0 # 此时上一行tree = value[dataVal]，将tree定位到了7，而7不再是一个字典了， # 这里就可以直接返回7了，如果tree = value[1]，那就是一个新的子节点，需要继续遍历下去 if type(tree).__name__ == ’int’:# 返回该节点值，也就是分类值return tree else: # 如果当前value不是字典，那就返回分类值 return valuedef accuracy(testDataList, testLabelList, tree): ’’’ 测试准确率 :param testDataList:待测试数据集 :param testLabelList: 待测试标签集 :param tree: 训练集生成的树 :return: 准确率 ’’’ # 错误次数计数 errorCnt = 0 # 遍历测试集中每一个测试样本 for i in range(len(testDataList)): # 判断预测与标签中结果是否一致 if testLabelList[i] != predict(testDataList[i], tree): errorCnt += 1 # 返回准确率 return 1 - errorCnt / len(testDataList)if __name__ == ’__main__’: # 开始时间 start = time.time() # 获取训练集 trainDataList, trainLabelList = loadData(’../Mnist/mnist_train.csv’) # 获取测试集 testDataList, testLabelList = loadData(’../Mnist/mnist_test.csv’) # 创建决策树 print(’start create tree’) tree = createTree((trainDataList, trainLabelList)) print(’tree is:’, tree) # 测试准确率 print(’start test’) accur = accuracy(testDataList, testLabelList, tree) print(’the accur is:’, accur) # 结束时间 end = time.time() print(’time span:’, end - start)

以上就是python 决策树算法的实现的详细内容，更多关于python 决策树算法的资料请关注好吧啦网其它相关文章！

Python 编程

上一条：python smtplib发送多个email联系人的实现下一条：Python+unittest+requests 接口自动化测试框架搭建教程

相关文章：

1. Java 3D的动画展示(Part1-使用JMF)2. 解决docker与vmware的冲突问题3. IntelliJ Idea 2020.1 正式发布,官方支持中文（必看）4. asp.net core应用docke部署到centos7的全过程5. Django中的AutoField字段使用6. Python基于jieba, wordcloud库生成中文词云7. IntelliJ IDEA设置自动提示功能快捷键的方法8. Django ORM实现按天获取数据去重求和例子9. XML入门的常见问题(三)10. PHP设计模式之策略模式Strategy详解【对象行为型】

排行榜

					
					Java 3D的动画展示(Part1-使用JMF)
IntelliJ IDEA设置自动提示功能快捷键的方法
Python基于jieba, wordcloud库生成中文词云
解决docker与vmware的冲突问题
IntelliJ Idea 2020.1 正式发布,官方支持中文（必看）
asp.net core应用docke部署到centos7的全过程
Django中的AutoField字段使用
Django ORM实现按天获取数据去重求和例子
vue 验证两次输入的密码是否一致的方法示例
ajax4jsf 1.0.2 发布,添加新的a4j tags.
FreeBSD 获得了Java re-distribution license
				

热门标签