最早看到关于SVM的介绍是这样的:简而言之它是个起源与神经网络有点像的东西,目前主要将其应用于分类问题。也就是说,如果我们有一堆已经分好类的东西,可是分类的依据我们并不知道,当我们接受到新的东西的时候,SVM可以预测新的数据要分到哪一类中去。听起来好像很神奇,因为分类的依据我们并不知道。
但是SVM绝不仅仅是“分类器”这么简单,因为它本身的理论已经非常完善。关于数学知识和数学应用方面,存在两类问题:一类是理论本身发展已经很完善,而且在理论上也证明了它在应用方面的价值,可是却没能很快或者是有效地在现实中大量应用,简单说就是人们知道它很好用,但就是不知道具体怎么用;另一类问题是理论本身处在一个发展过程中,也就是说理论部分还很不完善,人们只是在应用的时候得到了很好的结果,于是就觉得它好用,但其实我们并不知道为什么它这么好用。
SVM属于前一类,它在理论方面的发展可以说已经相当完整了,可是很少有人能将它应用于具体的问题当中。有时候即使能够用到,那也只是用在一些简单的,或者说是没有什么适用价值的问题上,所以说,对于SVM的应用问题,前景十分广阔。
很多理论都显示了这样一个普遍的看法:SVM比以前的学习机器更有发展前途,其优越性已经被很多试验所证明。一般来说,传统的统计方法需要三个过程,即学习特殊→普遍理论→判断未知,这个过程其实可以笼统地称为“数学归纳法”。
而SVM则不同,它不需要先从已知的数据中总结出普遍真理,然后再推出未知。它通过之前的“学习”,然后直接可以判断未知,有人很形象地称这个过程为“转导”。
传统的统计学习方法存在缺陷,因为其理论根据是“大数定律”,也就是说,当样本达到一定数目的时候,才能够保证它学习的“有效性”,不过太多有效的信息,会导致它对“先验知识”的学习过度(过学习问题)。因为几乎所有的传统统计学习都用到“经验风险最小化(ERM,Experience risk minimum)准则”,不过大量事实证明了:ERM准则是不成功的。
经过一段时间的思考和学习,我认为造成这种结果的原因有两个:一是学习样本的不充分;二是学习机器本身设计的不合理。最后的结论是:1、经验风险和期望风险是矛盾的,经验风险最小并不意味着期望风险最小;2、学习机器的复杂性不但应与所研究的系统有关,而且要和有限数目的样本相适应。