*本文假定读者拥有一定数学知识以及编程经验。
要谈人工智能必须说数据分析,要谈数据分析必须说统计与概率。
------------------------------------分界线------------------------------------------------
hello!,这里是最可爱的喵给各位带来的知识盛宴~!
简单的说,人工智能是什么?在70年前,三个男人,提出了三种不同的看法。
维纳认为人工智能是对于系统控制的一种自动化,因此他提出了控制论。他的理论我们要学,但学的很少。
香农认为人工智能是对于信息的处理和分析,因此他提出了信息论,他的理论是人工智能中的一种重要方法(信息论方法)。
图灵认为,人工智能就是对于事物的反馈,因此他设计了“图灵机”模型。并且提出了图灵测试方法。我们主要学的就是图灵和香农的方法。
机器学习
机器学习方法旨在基于底层算法和给定数据集生成预测模型。机器学习算法的输入数据通常由一组样本中的“特征(features)”和“标签(labels)”组成。特征是所有样本的测量结果,无论是原始的还是经过数学变换的结果;而标签是机器学习模型旨在预测的结果—也就是模型的输出。机器学习算法也可以处理缺乏标签的数据集。如图1所示,一般的机器学习工作流程首先是处理输入数据; 第二,学习或训练基础模型(一组数学公式和统计假设,定义学习规则); 第三,使用机器学习模型对新数据进行预测。
比如说,我们对于西瓜,什么西瓜比较好吃呢?西瓜的“特征”,比如其色泽,敲起来的声音,根蒂的形状等等,按照“经验”把它们分到标签“好吃”和“难吃”下。
按照经验分类,这就是智能。
如果你学过线性代数,你会发现,所谓的特征其实可以看成是“基向量”,比如说,我建立某个预测房地产价格的模型,其特征是距离内环的距离,以及其居住面积的大小,这样就可以用x轴为距离,y轴为面积,z轴为价格。这看上去一点都不难。
数据预测
要想对数据进行预测,必须建立一个对应函数,如果你学过数学,马上会想起著名的“拉格朗日插值法”
令(x1,y1)(x2,y2)....(xn,yn)为输入的n个数据,对于n个数据,总有一个n-1次的多项式对应,
但遗憾的是,拉格朗日插值法使用的高次多项式,实质上并不适合建模,因为我们考虑问题不周全,特征之外会有很多干扰项。对于这些干扰项,我们用噪音称呼它们。
高次多项式最糟糕的地方在于,在于其有多个零点,也就意味着其波动巨大,如果用高次多项式拟合房价,恐怕会出现多个负值。
所以,次数越低,其可能性越高,线性回归显然是最简单,也是比较适合的。一般而言,除了差距巨大,使用线性回归预测是比较靠谱的。
主要方法还是最小二乘法以及扩张到n维超平面(拥有n个特征)的最小二乘法。
线性分类
考虑这样一个问题,某些类型的肿瘤是癌症,而某些类型是良性的。衡量一个肿瘤的指标是其大小和浸润性。
我们需要知道肿瘤的类型。不要小看这个问题,因为癌症误诊率大概是百分之20多,即使是有经验的医生也难免出错,但机器学习分类肿瘤可以使错误率降低到百分之5。