本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【图】微软郑宇:这个时代不缺数据,缺不够开放的思维(3)

时间:2017-04-19 20:19来源:本港台直播 作者:118KJ 点击:
第二,利用隐含空间:数据本身可能不能转移,但是把数据投影到隐含空间以后,不同城市的数据就可以共享。我举个隐含空间的例子,比如北京市的交通

  第二,利用隐含空间:数据本身可能不能转移,但是把数据投影到隐含空间以后,不同城市的数据就可以共享。我举个隐含空间的例子,比如北京市的交通流量和宁波市的交通流量肯定很不一样,但是它们投影到隐含空间里面可能都是早高峰堵、晚高峰堵中间不堵,如果都能投影到类似的隐含空间以后,不同城市的数据就可以共享和利用。

  Q:如何选择模型特征?

  郑宇:在做模型特征选择时,数据质量比特征重要,特征比模型重要。

  第一,如果你根本都没这个数据的话你可能费很大劲设计各种模型才能得到一点好的结果,如果你的数据质量很好,你有这个数据了,就很容易得到结果。

  第二,业务理解深度和对数据的敏感度决定了你能找到的特征好坏。如果提了很好的特征,可能根据两三个特征就能得到别人十几个特征的不得结果。我们提取什么特征完全取决于我们对问题本身的理解,所以我着眼在与行业知识结合,数据挖掘其实是一个发现知识的过程,我们需要有从数据里面提炼知识解决问题的能力。

  第三,数据越大、质量越好,特征的选择的必要性越低。在传统的数据挖掘里往往有很多参数但训练样本又很少,所以不得不进行特征优选,使得训练样本还是那么多,但是参数变少,这样可以保证训练效果跟以前不差甚至更好。而现在我们拥有海量数据了,哪怕多选了一些冗余的特征,也可以依靠后面模型的力量来通过权重参数的做约束,越来越多的机器学习算法本身就考虑了特征的冗余性问题,所以在你拥有足够大的高质量数据之后,是没必要花费太多的精力在特征剔除上。

  有问题的时候不要先去看别人怎么做的最重要的是你是否真的对用数据解决问题感兴趣

  Q:怎么决定研究方向?

  郑宇:我们基本上所有的工作都来源对生活的观察。最重要的一点是你是否真的对用数据解决问题感兴趣,你真正能够体会到这种乐趣的时候就进入状态了。

  通常我们在看到现实生活中真的有很难的题目后,会在设计完方法以后再看有没有相关的工作做过了,这避免了我们的思路跟别人重复。再此我也建议大家,如果你有问题的时候不要先去看别人怎么做的,很多学生喜欢这么想,看到一个题目马上就去搜别人怎么做的,然后马上跟着别人思路走进去了,很难有创造性的思维。

  Q、对于希望进入数据领域的工程师,分析师们,您希望他们加强哪方面的技能培养?

  第一,加强数据科学的基本技能培养,包括数据管理、机器学习和可视化技术以及云计算平台的使用。

  第二,加强对要解决问题所在行业的了解,直播,借助行业现有的知识来设计合理的数据模型,明确行业传统方法为什么不行,并懂得跟行业专家有效沟通。

  第三,培养沟通和表达能力。现在的数据科学家不再是关起门来在家里闭门造车的工匠或者学者,他需要把深奥的问题和理论用最浅显的语言讲出来,让政府以及传统行业的客户能够明白。

  最后,培养自己的创作力。很多时候客户是提不出需求的,作为一个数据科学家要有超前的想象力和犀利的创造力。这点最难培养,跟一个人的成长经历有关,甚至要从娃娃抓起。

  我正在为MIT Press撰写一本《城市计算》的英文专著,里面涉及了数据科学家需要掌握的各种技能,以及实战案例。该书将作为美国该专业的第一本教材,预计年底出版,有兴趣的朋友可以关注。”

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容