本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】机器学习模型出错的四大原因及如何纠错

时间:2017-01-05 08:40来源:报码现场 作者:开奖直播现场 点击:
:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j [email protected] HR 微信: 13552313024 新智元为COO和执行总编提供

  :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

  简历投递:j[email protected]

  HR 微信:13552313024

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和金。

  加盟新智元,与人工智能业界领袖携手改变世界。

  【新智元导读】本文介绍了机器学习模型错的常见原因, 讨论了如何用偏差和方差、精确率和召回率这些指标来评测模型的问题,并基于 Andrew Ng 在斯坦福机器学习课程中所教授的概念,提出了一些解决这些问题的方法。

  可供选择的机器学习模型并不少。我们可以用线性回归来预测一个值,用逻辑回归来对不同结果分类,用神经网络来对非线性行为建模。

  我们建模时通常用一份历史数据让机器学习模型学习一组输入特性的关系,以预测输出。但即使这个模型能准确预测历史数据中的某个值,我们怎么知道它是否能同样准确地预测新的数据呢?

  简而言之,如何评估一个机器学习模型是否真的“好”呢?

  在这篇文章里,我们将介绍一些看似很好的机器学习模型依然会出错的常见情况, 讨论如何用偏差(bias)vs 方差 (variance),精确率 (precision)vs 召回率(recall)这样的指标来评估这些模型问题, 并提出一些解决方案以便你在遇到此类情况时使用。

  高偏差还是高方差

  

wzatv:【j2开奖】机器学习模型出错的四大原因及如何纠错

  检验一个机器学习模型时要做的第一件事就是看是否存在“高偏差(High Bias)”或“高方差(High Variance)”。

  高偏差指的是你的模型对实验数据是否“欠拟合(underfitting)”(见上图)。高偏差是不好的,因为你的模型没有非常准确或者有代表性地反映输入值和预测的输出值之间的关系, 而且经常输出高失误的值(例如模型预测值与真实值之间有差距)。

  高方差则指相反情况。出现高方差或者“过拟合”时, 机器学习模型过于准确,j2直播,以至于完美地拟合了实验数据。这种结果看上去不错,但需引起注意,因为这样的模型往往无法适用于未来数据。所以尽管模型对已有数据运行良好,你并不知道它在其他数据上能运行得怎样。

  那怎样才能知道自己的模型是否存在高偏差或是高方差呢?

  一种直接了当的方法就是把数据一分为二:训练集和测试集。例如把模型在 70% 的数据上做训练,然后用剩下的 30% 数据来测量失误率。如果模型在训练数据和测试数据上都存在着高失误,那这个模型在两组数据都欠拟合,也就是有高偏差。如果模型在训练集上失误率低,而在测试集上失误率高,这就意味着高方差,也就是模型无法适用于第二组数据。

  如果模型整体上在训练集(过往数据)和测试集(未来数据)上都失误率较低,你就找到了一个“正好”的模型,在偏差度和方差度间达到了平衡。

  低精确率还是低召回率

  

wzatv:【j2开奖】机器学习模型出错的四大原因及如何纠错

  即使机器学习模型准确率很高,也有可能出现其他类型的失误。

  以将电子邮件分类为垃圾邮件(正类别 positive class)和非垃圾邮件(负类别 negative class)为例。99% 的情况下, 你收到的邮件都并非垃圾邮件,但可能有1% 是垃圾邮件。假设我们训练一个机器学习模型,让它学着总把邮件预测为非垃圾邮件(负类别), 那这个模型 99% 的情况下是准确的,只是从未捕获过正类别。

  在这种情况下,用两个指标——精准率和召回率来决定究竟要预测多少百分比的正类别就很有帮助了。

  

wzatv:【j2开奖】机器学习模型出错的四大原因及如何纠错

  精准率是测量正类别多常为真, 可以通过计算“真正(true positive, 例如预测为垃圾邮件且真的为垃圾邮件)”与“真负(true negative, 例如预测为垃圾邮件但事实并非如此)”总和中“真正”的个数而得出。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容