【IT168 编译】想学习机器学习,或者你需要了解基本概念吗?今天,本文为刚刚开始机器学习冒险的人们提供了两个重要参考资料:机器学习术语表和ML规则。
如果你刚刚开始机器学习之旅,可能很多事情都会令人困惑。 ML可能处于最前沿,但对于不同领域的开发人员来说很难赶上。然而,这样做的回报是相当可观的:我们一直在谈论ML专家如何对他们的技能进行补偿。
那么,如果开发人员想要升级他们的ML凭证,他们应该怎么做?虽然你可以选择一些课程或新兵训练营,但这些可能会很昂贵。在AI中国之前的一些文章中已经介绍了有关机器学习、人工智能等一些伟大的开源选项,这些选项都可以在线获得。整个互联网上都充斥着用于机器学习的开源工具,比如:OpenAI和TensorFlow。
今天,我们来看看来自Google Developers团队的两个有用工具:ML规则和机器学习术语表。对于那些从事机器学习的人来说,这是一个非常好的资源,无论他们是初学者还是仅仅是学习ML技能。
机器学习规则(文末资源自取)
机器学习是一门相当新的学科,所以实际上并没有太多硬性规定。然而,有很多指导方针和有用的概括要遵循。
在机器学习过程中,ML算法不是必需的和有用的,只是你作为开发人员的许多问题都可以通过工程或计算机科学的背景来解决。
Martin Zinkevich对所有ML问题都有一个非常基本的方法:
1.确保你的管道是坚实的端到端。
2.从一个合理的目标开始。
3.以简单的方式添加常识功能。
4.确保你的管道保持稳定。
遵循这种一般方法涵盖了很多理由。日益增加的复杂性意味着你正在抛出未来的障碍。记住所有开发项目的黄金法则——保持简单。
在开始你的ML管道之前有三条简单的规则
不要被一系列简单的指导方针所左右,他们还会让ML专家在开始机器学习之前遵循三条简单的规则。这些规则对于开发你的第一条管道、特征工程和提炼复杂模型非常有用,但我们现在只关注基础。
规则1:不要害怕在没有机器学习的情况下推出产品
你需要机器学习吗?你真的需要吗?毫无疑问,ML现在在技术上非常热门,但不要让它成为寻找问题的解决方案。 ML具有非常明确的成功参数,但它也可能无法满足你的项目需求。
此外,根据定义,ML需要大量的数据。而这时候的你可能无法访问正确的数据集,甚至无法访问任何数据集。
规则2:设计和实施指标
指标非常重要。没有任何测量棒,你怎么知道你的项目是否有效?你怎么能确定是否存在问题?
这是数据收集的起点。当你设计一个项目时,看看是否有办法从一开始就收集数据,只是因为从一开始就更容易获得用户的许可。拥有丰富的历史数据可以更容易地证明,如果这一举措或调整到系统确实做了什么。
规则3:选择复杂启发式机器学习
启发式是解决问题的方法。因此,简单的启发式算法很容易实现。机器学习比复杂的启发式更容易更新。
术语表(文末资源自取)
Google开发团队也发布了全面的机器学习词汇表。技术术语复杂,因此,让我们用一张非常有用的参考表来简化事情,这些参考表清楚地解释了我们所说的交叉熵、独热编码或softmax函数。
计算机科学中存在很多重叠术语,清晰度对于编写干净的代码至关重要。编写干净的代码不仅有效,它也有助于未来的开发者跟随你的脚步。
结论
机器学习可能很困难,但是有很多选项可以让任何刚开始的人都更容易。这些来自Google开发团队的工具对于初学者以及希望提高ML技能的人都非常有用。
资源自取:
机器学习规则:(https://developers.google.com/machine-learning/rules-of-ml/)
机器学习术语表中文版:(https://developers.google.com/machine-learning/glossary/)