手机号码为133*****239的用户, 现在她通过我站悬赏问答网发布了一个紧急帮助信息,标题是:【决策树的基本思想是什么?】,具体需求内容是【数据科学导论中,决策树的基本思想是什么?】,但是由于本站人力物力有限,由于其问题太过于专业性太强,也或者是我们根本无暇顾及该用户的具体需求,导致本站根本无法为该用户提供最有效的服务。现在她(他)通过本站悬赏问答网平台发布了这一需求,希望有能人之士能够帮他解决这一个问题,并愿意付出1元作为报酬,不甚感激。
如果您觉得这个提问很好,可以点击左方的按钮进行推广,支持微信,短信和邮件推广。
注:1元只是象征性的价格标示,不代表实际成交价格,实际成交价格以能回答之人的定价为准。如果答案确实好,并且列出了一部分可信的免费内容(足以让购买回答答案者用户放心购买),则您可以放心购买。如果通过本站购买产生了交易纠纷,本站愿意承担一切线上交易的成交财务风险(限定在悬赏以后发生的购买金额范围以内,不承担线下交易的人身风险以及财务风险等任何风险)。
如果你无法确定或者不知道回答的内容是不是你想要的,可以在线咨询回答者以确定具体情况,根据具体情况请回答者做必要的修改或者补充。 如果确实已经发生了交易纠纷,您可以联系本站 仲裁处理。
对数据进行处理,利用归纳算法生成可读的规则和决策树
决策树的基本思想
决策树算法是最早的机器学习算法之一。
算法框架
1.决策树主函数
各种决策树的主函数都大同小异,本质上是一个递归函数。该函数的主要功能是按照某种规则生长出决策树的各个分支节点,并根据终止条件结束算法。一般来讲,主函数需要完成如下几个功能。
(1)输入需要分类的数据集和类别标签
(2)根据某种分类规则得到最优的划分特征,并创建特征的划分节点--计算最优特征子函数
(3)按照该特征的每个取值划分数据集为若干部分--划分数据集子函数
(4)根据划分子函数的计算结果构建出新的节点,作为树生长出的新分支
(5)检验是否符合递归的终止条件
(6)将划分的新节点包含的数据集和类别标签作为输入,递归执行上述步骤。
2.计算最优特征子函数
计算最优特征子函数是除主函数外最重要的函数。每种决策树之所以不同,一般都是因为最优特征选择的标准上有所差异,不同的标准导致不同类型的决策树。如:ID3的最优特征选择标准是信息增益、C4.5是信息增益率、CART是节点方差的大小等。
在算法逻辑上,一般选择最优特征需要遍历整个数据集,评估每个特征,找到最优的那一个特征返回。
3.划分数据集函数
划分数据集函数的主要功能是分隔数据集,有的需要删除某个特征轴所在的数据列,返回剩余的数据集;有的干脆将数据集一分为二。
4.分类器
所有的机器学习算法都要勇于分类或回归预测。决策树的分类器就是通过遍历整个决策树,使测试集数据找到决策树中叶子节点对应的类别标签。这个标签就是返回的结果。
对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。即通过一系列规则对数据进行分类的过程。
决策树又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。决策树的决策过程需要从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果