本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】独家|机器学习先驱Michael Jordan清华演讲(6)

时间:2016-12-29 16:09来源:668论坛 作者:j2开奖直播 点击:
这是一个计算机里很自然的概念,叫做divide和conquer,能够引导出真正的困难的统计学。比如置信区间,如果我通过某个较大的因子减少数据量,置信区间

  这是一个计算机里很自然的概念,叫做divide和conquer,能够引导出真正的困难的统计学。比如置信区间,如果我通过某个较大的因子减少数据量,置信区间会变得更大。如果我用小量的数据,我会得到错误的答案,我需要在我把规模调回的时候通过某种方式纠正错误,搞清楚这个怎么做是不容易的。

码报:【j2开奖】独家|机器学习先驱Michael Jordan清华演讲

  以上是这次讲座的前三分之二的内容,这些是关于理论的。现在我们来说一说系统,这个会相对短一些。早些时候我是一个实验室的联合首席研究员,从事数据分析开发系统。尝试把统计学和机器学习的想法结合在一起。我们有一定成果,但是我们还是处于中级阶段,这个叫AMPLab的实验项目大概一个月前结束了,我们正在筹备称为RISE Lab的新实验室,Ion Stoica是新实验室的负责人,我也是首席研究员之一。

  我会简要介绍一下新的实验室。首先,这个实验室主要是企业赞助的。我们大学给予我们非常少,基本上没有任何支持。州政府也没有提供任何支持,主要原因是加州的财政危机。因此我们开始接触企业,寻求支持,我们的募款非常成功,这些企业给予了我们极大的支持来运营这个实验室,这是我们能够运营这个项目长达5年的原因。我记得赞助企业中有几家中国公司,我记得华为在某个时候参与了进来,在这张片子上的企业是我们做这张片子时候已经参与进来的。初始想法是结合我所擅长的算法——机器学习,以及我同事所擅长的机器和云计算及其他领域,一起思考人类数据和众包。这是我们的基本思路。

  我们是分布式计算软件增长的贡献力量之一,现在这方向的生态系统已经得到极大的拓展,我们实验室开发的Spark已是这个生态系统中的重要部分。Spark诞生的真实原因是我组的机器学习研究员对Hadoop非常不满意,他们抱怨很多。我们一开始让他们使用Hadoop来进行更大规模的测试,研究员使用后觉得Hadoop对机器学习非常不适用,因为大部分机器学习(算法)需要迭代,输入数据,处理一小部分数据,对参数作出一点修改,重新处理数据,然后再做一点修改,这个过程需要不断重复。

  对于Hadoop来说,数据需要经常从磁盘输出然后存储回去,每一步都需要需要重复映射和化简,atv,然后回到磁盘读取数据。这个过程太慢了,一名研究系统的学生Matei (译注:Matei Zaharia)听到我们的讨论,帮助我们开发了新系统,让大部分中间结果缓存而不是写入磁盘,这样Spark就诞生了。这是AMPLab栈的Spark生态系统之一(译注: 伯克利数据分析栈)。在最下面是储存层和资源虚拟化层,不过我们主要研究往上的层,Spark Streaming支持流式数据处理,支持误差计算和抽样运作,也支持各种语言和图像处理。

  Splash是一种并行计算框架,由今天也在座的You Chan开发,他也开发了其他机器学习相关的工具。我也会简要介绍模型服务器Velox,这个生态系统大概一年前的状况,过去这一年它持续演化,结果非常成功。部分原因是因为这是学术界开发的,非常多企业发布过数据分析软件栈,IBM Google 微软都发布过,基本上它们都没能引起大家的使用兴趣,没有人使用它们的工具,这软件(Spark)的使用比那些企业的工具广泛得多,而Spark的开发只需要几名学者,因为其他(独立)研究员信任学术界。

  学术界不会突然让他们支付软件,不会随意改动软件,不会为软件建立商业模式而研究人员成为中间一份子,所以,学术人员是绝对有能力与大企业竞争的。你可以接触到各种资源,没有人真正信任大企业,不过他们会信任你!

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容