码报:【j2开奖】独家|机器学习先驱Michael Jordan清华演讲(6)_本港台直播_J2开奖直播

　　这是一个计算机里很自然的概念，叫做divide和conquer，能够引导出真正的困难的统计学。比如置信区间，如果我通过某个较大的因子减少数据量，置信区间会变得更大。如果我用小量的数据，我会得到错误的答案，我需要在我把规模调回的时候通过某种方式纠正错误，搞清楚这个怎么做是不容易的。

码报:【j2开奖】独家|机器学习先驱Michael Jordan清华演讲

　　以上是这次讲座的前三分之二的内容，这些是关于理论的。现在我们来说一说系统，这个会相对短一些。早些时候我是一个实验室的联合首席研究员，从事数据分析开发系统。尝试把统计学和机器学习的想法结合在一起。我们有一定成果，但是我们还是处于中级阶段，这个叫AMPLab的实验项目大概一个月前结束了，我们正在筹备称为RISE Lab的新实验室，Ion Stoica是新实验室的负责人，我也是首席研究员之一。

　　我会简要介绍一下新的实验室。首先，这个实验室主要是企业赞助的。我们大学给予我们非常少，基本上没有任何支持。州政府也没有提供任何支持，主要原因是加州的财政危机。因此我们开始接触企业，寻求支持，我们的募款非常成功，这些企业给予了我们极大的支持来运营这个实验室，这是我们能够运营这个项目长达5年的原因。我记得赞助企业中有几家中国公司，我记得华为在某个时候参与了进来，在这张片子上的企业是我们做这张片子时候已经参与进来的。初始想法是结合我所擅长的算法——机器学习，以及我同事所擅长的机器和云计算及其他领域，一起思考人类数据和众包。这是我们的基本思路。

　　我们是分布式计算软件增长的贡献力量之一，现在这方向的生态系统已经得到极大的拓展，我们实验室开发的Spark已是这个生态系统中的重要部分。Spark诞生的真实原因是我组的机器学习研究员对Hadoop非常不满意，他们抱怨很多。我们一开始让他们使用Hadoop来进行更大规模的测试，研究员使用后觉得Hadoop对机器学习非常不适用，因为大部分机器学习(算法)需要迭代，输入数据，处理一小部分数据，对参数作出一点修改，重新处理数据，然后再做一点修改，这个过程需要不断重复。

　　对于Hadoop来说，数据需要经常从磁盘输出然后存储回去，每一步都需要需要重复映射和化简，atv，然后回到磁盘读取数据。这个过程太慢了，一名研究系统的学生Matei (译注：Matei Zaharia)听到我们的讨论，帮助我们开发了新系统，让大部分中间结果缓存而不是写入磁盘，这样Spark就诞生了。这是AMPLab栈的Spark生态系统之一(译注: 伯克利数据分析栈)。在最下面是储存层和资源虚拟化层，不过我们主要研究往上的层，Spark Streaming支持流式数据处理，支持误差计算和抽样运作，也支持各种语言和图像处理。

　　Splash是一种并行计算框架，由今天也在座的You Chan开发，他也开发了其他机器学习相关的工具。我也会简要介绍模型服务器Velox，这个生态系统大概一年前的状况，过去这一年它持续演化，结果非常成功。部分原因是因为这是学术界开发的，非常多企业发布过数据分析软件栈，IBM Google 微软都发布过，基本上它们都没能引起大家的使用兴趣，没有人使用它们的工具，这软件(Spark)的使用比那些企业的工具广泛得多，而Spark的开发只需要几名学者，因为其他(独立)研究员信任学术界。

　　学术界不会突然让他们支付软件，不会随意改动软件，不会为软件建立商业模式而研究人员成为中间一份子，所以，学术人员是绝对有能力与大企业竞争的。你可以接触到各种资源，没有人真正信任大企业，不过他们会信任你！

(责任编辑：本港台直播)