面向数据分析师的机器学习——第 1 部分
作者:互联网
面向数据分析师的机器学习——第 1 部分
成为一名熟练的数据分析师!
本系列文章适用于那些希望在职业生涯中成为数据科学家的数据分析师/工程师。
传统上,数据分析师不应该了解机器学习 (ML)。但是,ML 的可访问性变得比以往任何时候都更容易,您会惊讶地发现,训练 ML 模型比您目前每天所做的事情(数据收集、数据清理、数据转换、指标)要容易得多生成和数据可视化。
此外,了解机器学习的基本概念有助于您成为更好的数据分析师。
Traditional Data Analyst (Image credit: Alteryx)
Up-skilled data analyst (aka data analyst turned data scientist) (Image credit: Alteryx)
我将引导您完成一系列文章,以展示 ML 的基础知识和 Python 的动手示例 scikit 学习包 .
为什么是机器学习?
您可能会比以往更多地听到机器学习、深度学习和人工智能。
毫不奇怪,这就是谷歌趋势所显示的:
The search popularity of Machine Learning and Deep Learning
机器学习不是幻想。事实上,它已经存在了几十年。深度学习的最新进展使其呈指数级增长。
您的 Google 邮件收件箱使用机器学习模型来过滤垃圾邮件并只向您显示好邮件。它被称为 垃圾邮件过滤器 .
您的智能手机使用 AI 来检测您拍摄的照片中的人脸。
您的银行使用机器学习来识别欺诈交易。
机器学习到底是什么?
ML 是计算机编程的科学(和艺术),以便它们可以从数据中学习。 — 奥雷连·杰龙
正是这一研究领域使计算机能够在没有明确编程的情况下进行学习。 — 阿瑟·塞缪尔
它指的是自动检测数据中有意义的模式。 — Sahlev-Shartz 和 Ben-David
垃圾邮件过滤器是一种 ML 模型,可以学习从正常的好电子邮件中标记垃圾邮件。
ML 模型如何工作?
让我们以垃圾邮件过滤器为例。
您首先收集垃圾邮件和常规电子邮件的样本。这被称为我们的 训练集 .作为数据分析师,您已经在执行这项任务来帮助数据科学家。
然后你确定 数值特征 从这个训练集中(例如电子邮件的长度、has_attachments、电子邮件中的 URL 数量等),因为机器学习算法只理解数字。您通过获得领域知识来掌握这一步。在这种情况下,关于网络钓鱼和常规电子邮件的领域知识。
然后,您将这些功能提供给 机器学习算法 对垃圾邮件和常规电子邮件进行分类。
我们可以使用许多众所周知的 ML 算法。您不必编写自己的 ML 算法——这是 ML 研究人员的工作。随着我们在本系列中的进展,我们将学习其中的许多内容。敬请关注!
Typical machine learning pipeline (simplified)
ML 算法从这些样本中学习并为我们提供 训练模型 .
我们评估模型以查看它是否符合我们的评估标准。例如,一个标准可以是模型的准确性。换句话说,该模型在将垃圾邮件与常规电子邮件分开方面有多好。
我们通过另一组垃圾邮件和常规电子邮件进行评估。这组被称为 测试集 . (注意:测试集应该不同于训练集。)
如果经过训练的模型对 10 个测试样本中的 1 个进行了错误分类,我们就说该模型具有 90% 的准确率。如果我们的目标是达到 95% 的准确率,那么我们的模型不满足我们的评估标准。
在这种情况下,我们回到绘图板来了解为什么该模型每 10 封电子邮件中就有 1 封错误分类。根据我们的发现,我们要么改进我们的训练数据集、特征,要么调整 ML 算法以提高准确性。我们将在以后的文章中学习这种交易。
通过上述更改,我们现在只有 20 封电子邮件中有 1 封被分类。换句话说,我们的模型有 95% 的准确率——这是我们的目标。欢呼!现在我们可以将这个经过训练的垃圾邮件过滤器与电子邮件解决方案一起部署,以便它可以过滤掉垃圾邮件。
只是为了让您了解我们将使用 scikit-learn ML 库在 Python 中实现的内容,下面我展示了一个非常基本的代码片段,用于训练机器学习模型以对来自常规电子邮件的垃圾邮件进行分类。
这个例子绝不是全面的。当我们实现真实世界的 ML 模型时,我们还采取了其他几个步骤。但这应该让您了解该过程的样子。
Basic flow of training a ML model: 1. load data, 2. split to train and test, 3. train a model, 4. evaluate the model (and iterate until you get the desired results — which not shown above)
不用担心,如果您不理解上述代码的开头或结尾。你不应该
标签:机器,ML,模型,学习,算法,垃圾邮件,面向,我们 来源: https://www.cnblogs.com/amboke/p/16688005.html