数据科学与机器学习:精通数学助力成功之路

你是否是一位对数据科学和机器学习世界充满好奇的准数据科学家?恭喜你选择了当前最适合你的职业道路。然而,你是否知道要在机器学习和数据科学领域取得成功,你必须精通数学?是的,你没听错。

无论你在学校时与数学的关系是爱是恨,数学和统计学的核心概念在设计和优化机器学习模型时都非常有用。因此,如果你决定选择数据科学领域的职业道路,你需要开始热爱数学概念,并将其应用到你的未来中,因为这是机器学习的先决条件之一。

本文将作为数据科学博客马拉松的一部分发布。

Image 2

目录

  • 机器学习与数学的关联
  • 本文的目标
  • 数据科学和机器学习中应用的数学概念
  • 机器学习和数据科学中重要的数学概念
  • 为什么你应该关注数学?为什么在机器学习项目中需要数学?
  • 学习数据科学和机器学习数学的正确方法
  • 结论

机器学习与数学的关联

机器学习本质上就是数学,它帮助我们创建能够从数据中学习并做出准确预测的算法。预测可以简单到从一组图片中分类狗和猫,或者基于过去的购买记录向客户推荐产品。因此,正确理解任何核心机器学习算法背后的数学概念非常重要。这样,它可以帮助你为数据科学和机器学习项目选择正确的算法。

机器学习主要建立在数学先决条件之上,因此只要你理解为什么使用数学,你会发现它更有趣。通过这一点,你将理解为什么我们选择一种机器学习算法而不是另一种,以及它如何影响机器学习模型的性能。

本文的目标

  • 哪些数学概念涉及机器学习?
  • 为什么在机器学习项目中需要数学?
  • 学习它的正确方法是什么?

在今天的博客文章中,我们将讨论你需要学习的所有数学概念,以掌握数据科学和机器学习的核心概念。我们还将通过一些示例了解为什么在机器学习中使用数学。

Image 3

让我们首先看看数据科学和机器学习中使用的多种数学形式,以便你更好地理解在数据科学职业中真正需要了解的数学知识。

数据科学和机器学习中应用的数学概念

机器学习由四个关键概念驱动,它们是统计学、线性代数、概率和微积分。虽然统计概念是每个模型的核心部分,但微积分帮助我们学习和优化模型。当我们处理大型数据集时,线性代数特别有用,而概率有助于预测事件发生的可能性。这些是你在数据科学和机器学习职业生涯中会经常遇到的数学概念。

机器学习和数据科学中重要的数学概念

  • 线性代数
  • 微积分
  • 概率论
  • 离散数学
  • 统计学

机器学习中的线性代数概念

理解如何构建线性方程是开发核心机器学习算法的基本组成部分。使用这些来评估和观察数据集。机器学习算法在损失函数、正则化、协方差矩阵、奇异值分解(SVD)、矩阵操作和支持向量机分类中应用线性代数。它还在线性回归等算法中发挥作用。理解这些概念对于掌握机器学习中使用的优化方法至关重要。

Image 4

为了执行主成分分析(PCA),我们使用线性代数来降低数据的维度。线性代数在神经网络中也起着重要作用,用于处理和表示网络。因此,你应该对线性代数感兴趣,因为数据科学广泛使用它。

然而,不要让这吓到你;理解概念很重要,但你不必成为线性代数专家来解决大多数问题。只有对概念有扎实的理解就足够了。如果你在数学方面遇到困难,Marc Peter Deisenroth的《机器学习数学》是一本很好的书,可以帮助你开始这段旅程。

机器学习中的微积分

许多在学校时不喜欢学习微积分的学习者将会大吃一惊,因为它是机器学习的重要组成部分。幸运的是,你可能不需要精通微积分,只需要学习和理解微积分的原理。此外,你需要在模型构建过程中通过微积分理解机器学习的实际应用。

因此,如果你理解函数的导数如何返回其变化率,那么你将能够理解梯度下降的概念。在梯度下降中,我们需要找到函数的局部最小值,依此类推。如果你遇到鞍点或多个最小值,梯度下降可能会找到一个局部最小值,而不是全局最小值,除非你从多个点开始。在数据科学中掌握微积分部分的一些必要主题是微分和积分微积分、偏导数、向量值函数、方向梯度。

多元微积分在算法训练和梯度下降中使用。导数、散度、曲率和二次近似都是你可以学习和实现的重要概念。

机器学习的数学现在可能让你感到害怕;然而,在几天的建设性学习后,你将理解构建成功机器学习模型所需的微积分概念。

描述性统计的使用

描述性统计是每个准数据科学家需要学习的关键概念,以理解机器学习中的分类,如逻辑回归、分布、判别分析和假设检验。

如果你在学校时在统计学方面遇到困难,那么你需要付出200%的努力来学习统计学的数学部分,因为它对于你成为一名成功的数据科学家非常重要。简单来说,统计学是机器学习数学的主要部分。机器学习所需的一些基本统计学包括组合数学、公理、贝叶斯定理、方差和期望、随机变量、条件和联合分布。

机器学习中的离散数学

离散数学涉及非连续数字,通常是整数。许多应用程序需要使用离散数字。例如,在调度出租车车队时,你不能发送0.34辆出租车;你必须发送完整的出租车。你不能有半个邮递员或让他访问1个半地方来递送信件。

人工智能中的许多结构都是离散的。例如,神经网络具有整数数量的节点和互连。它不能有0.65个节点或九分之一的链接。因此,用于构建神经网络的数学必须包含一个离散元素,即表示节点和互连数量的整数。

除非你希望处理关系域、图形模型、组合问题、结构化预测等,否则你可以只掌握离散数学的基础知识来应对机器学习。要掌握这些概念,你必须参考离散数学的书籍。幸运的是,计算机科学专业的毕业生在大学里已经很好地学习了这些概念。然而,其他人可能需要付出额外的努力来理解这门学科。因此,离散数学是人工智能和机器学习的重要组成部分。

机器学习中的概率论

要正确完成机器学习预测建模项目,可以合理地得出结论,概率是必不可少的。

机器学习是从模糊数据中创建预测模型的过程。处理错误或不完整的信息就是不确定性。

不确定性对机器学习至关重要,但它也是给新手带来最多困难的组件之一,特别是那些来自编程背景的人。

在机器学习中,不确定性的三个主要来源是:噪声数据、问题领域的有限覆盖范围,当然还有不完美的模型。然而,借助正确的概率工具,我们可以估计问题的解决方案。

概率对于假设检验和分布(如高斯分布和概率密度函数)至关重要。

现在让我们看看在了解数学和数据类型后的应用。

为什么你应该关注数学?为什么在机器学习项目中需要数学?

机器学习数学之所以重要,有很多原因,我将在下面分享一些重要的要点:

  • 选择最佳算法需要考虑准确性、训练时间、模型复杂性、参数数量和特征数量。
  • 选择参数值和验证方法。
  • 理解偏差-方差权衡,使你能够识别在执行程序时通常发生的欠拟合和过拟合问题。
  • 确定正确的置信区间和不确定性。

学习数据科学和机器学习数学的正确方法

尽管互联网上有大量有价值的资源解释了矩阵分解、向量微积分、线性代数解析几何矩阵、主成分分析和支持向量机背后的数学等概念。并非所有资源都是你理解的一站式解决方案。因此,我整理了一份书籍、网站和YouTube频道的列表,可以帮助你更好地理解人工智能领域的理论概念。

  • Marc Peter Deisenroth的《机器学习数学》是一本可以帮助你开始数学之旅的书。算法的实际应用及其背后的数学清楚地解释了这些概念。文章很好地解释了所有数学概念。你可以在这里参考在线PDF:https://mml-book.github.io/book/mml-book.pdf。
  • 伦敦帝国理工学院的多元微积分——伦敦帝国理工学院基本上推出了一个YouTube系列,涵盖了多元微积分的重要概念及其在各种机器学习算法中的应用。虽然整个课程是与Coursera合作的,但伦敦帝国理工学院已免费向所有好奇的学习者提供。
  • 可汗学院的线性代数、概率与统计、多元微积分和优化课程——一个非常全面且免费的资源,可供所有学习者进一步了解线性代数解析几何矩阵等复杂概念。
  • Larry Wasserman的《所有统计学:统计推断简明课程》——另一个详尽的资源,包含重要概念的详细解释。
  • Udacity的统计学入门提供了一个免费资源,帮助你初步理解数据科学所需的统计学。

结论

学习数学概念并将其付诸实践大约需要3-4个月的时间。请参考上述资源,并不要忘记与机器学习算法一起学习,以便你可以理解哪种算法适合你的模型。

常见问题

Q1. 在Python机器学习中使用什么数学?在Python机器学习中,你需要基本的数学知识,如加法、减法、乘法和除法。此外,理解平均值和百分比等概念也很有帮助。

Q2. 数据科学需要什么数学?数据科学需要基本的数学,如算术、平均值和百分比。更高级的统计学知识,涉及解释数据模式,也是必不可少的。

Q3. 基础数学是否足够用于数据科学?基础数学是一个开始,但对于数据科学,了解更多是有帮助的。理解统计学(在数据中寻找模式)和一些代数可以使你的数据分析更加稳健。

Analytics Vidhya不拥有本文中显示的媒体,作者自行决定使用它。

Ananya Chakraborty
一位热情的业务分析师,分析人和数据!我也正在进入数据科学领域。一步一步地学习,一次学习一项技能,以能够持续提供高质量的工作!电子商务、数字营销、健康和金融是我擅长的领域!

初学者教育面试准备机器学习数学概率统计

版权声明:
作者:5ifenxi
链接:https://5ifenxi.com/archives/1415.html
来源:爱分析网(5iFenXi.com)
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>