数据科学中的数学——必备知识点+常用知识点示例+推荐学习资源

百家 作者:数据分析 2018-08-23 01:46:19

   

   作为一名数据科学家,我们至少需要掌握哪些数学知识?本文为您一一列举,并解读它们


1函数、变量、方程和图表


1.1 
必备的知识点      

    建议从最基本的知识点(如线性方程组、二项式定理)开始入手,重点掌握:

  • 对数,指数,多项式函数,有理数。

  • 基本几何定理,三角恒等式。

  • 实数和复数的基本属性。

  • 序列,加总,不等式。

  • 绘图,笛卡尔系、极坐标系,圆锥曲线。

1.2
常用知识点的举例

   如果您想要在排序后了解搜索在百万级别数据库上的运行速度,您将会遇到二进制搜索的概念。要了解它的动态变化,需要了解对数和递推方程。或者,如果您想分析时间序列,您可能会遇到周期函数和指数衰减等概念。


1.3
学习资源的推荐  
  • Data Science Math SkillsCoursera

  • Introduction to AlgebraedX

  • Khan Academy Algebra



2 统计学                                 



2.1
必备知识点              

     在数据科学家成长的过程中,不能过度强调掌握统计和概率的重要性。很多人甚至认为经典的机器学习(非神经网络)只是统计学习。这个主题太过于广泛了。因此,画清楚重点是很有必要的。


  • 数据摘要和描述性统计,集中趋势,方差,协方差,相关性,

  • 概率的基本概念,期望,概率演算,贝叶斯定理,条件概率,

  • 概率分布函数 :均匀分布,正态分布,二项式分布,卡方分布,学生t-分布,中心极限定理,

  • 采样,测量,误差,随机数生成,

  • 假设检验,A / B检验,置信区间,p值,

  • 方差分析,t检验

  • 线性回归,正则化

       

2.2
常用知识点的举例   

     在同行交流中,如果你能掌握以上所有的概念,你会很快给对方留下深刻的印象。作为数据科学家,你几乎处处都要用到这些概念。

2.3
学习资源的推荐     
  • Statistics with R specialization —Coursera, Duke University

  • Statistics and Probability in Data Science using Python — edX, Univ of California San Diego

  • Business Statistics and Analysis Specialization — Coursera, Rice University



3   线性代数             


3.1
必备知识点                          

   什么是常用的?矩阵和矩阵代数。这是学习数学的一个重要分支,用于理解大多数机器学习算法如何在数据流上工作以创建洞察力。以下是要学习的基本内容

  • 可矩阵和向量的基本属性 - 标量乘法,线性变换,转置,共轭,秩,行列式,

  • 矩阵乘法规则和各种算法,矩阵逆,

  • 特殊矩阵 - 方阵,单位矩阵,三角矩阵,稀疏和密集矩阵的思想,单位向量,对称矩阵,Hermitian,skew-Hermitian和酉矩阵,

  • 矩阵分解概念/ LU分解,高斯/高斯 - 乔丹消除,求解Ax = b方程的线性系统,

  • 矢量空间,基,跨度,正交性,线性最小二乘,

  • 特征值,特征向量和对角化,奇异值分解(SVD)

      

3.2 
常用知识点的举例     

     如果您使用了降维技术主成分分析(PCA),那么您可能已经使用奇异值分解来实现数据降维。通常,绝大多数神经网络算法都使用线性代数技术来表示和处理网络结构和学习操作。

3.3
学习资源的推荐        
  • Linear Algebra: Foundation to Frontier— edX, UT Austin

  • Mathematics for Machine Learning: Linear Algebra — Coursera, Imperial College, London




4 微积分              


4.1
必备的知识点        

    无论你喜欢它还是在大学期间都讨厌它,事实上微积分的概念和应用在数据科学或机器学习领域的许多地方出现。它隐藏在线性回归中普通最小二乘问题的简单分析解决方案背后,或者嵌入到神经网络学习新模式的每个反向传播中。以下是要学习的方面。

  • 单变量,极限,连续性和可微性

  • 中值定理,不确定形式和L'Hospital规则,

  • 极小值,

  • 泰勒序列,无限级数求和/积分概念

  • 积分计算的基本和中值定理,对有限和不正确积分的评价,

  • Beta和Gamma功能,

  • 多变量的函数,极限,连续性,偏导数,

  • 普通和偏微分方程的基础知识

4.2
常用知识点的举例   

   想知道如何实现逻辑回归算法?它很有可能使用一种称为“梯度下降”的方法来找到最小损失函数。要了解这是如何实现的,您需要使用来自微积分的概念 - 梯度,导数,极限和链式求导法则。

4.3
学习资源的推荐     
  • Pre-University Calculus — edX, TU Delft

  • Khan Academy Calculus all content

  • Mathematics for Machine Learning: Multivariable Calculus — Coursera, Imperial College, London




5   离散数学               


5.1
必备的知识点       

    通常,离散数学是“数据科学的数学”中较少讨论的主题,但事实是所有现代数据科学都是在计算系统的帮助下完成的,离散数学是这类系统的核心。这里是要学习的一些重点。

  • 集,子集,幂集

  • 计数功能,组合,可数性

  • 基本证明方法 - 归纳法、反证法

  • 归纳,演绎和命题逻辑的基础知识

  • 基本数据结构 - 堆栈,队列,图形,数组,哈希表,树

  • 图表属性 - 连接组件,度,最大流量/最小切割概念,图形着色

  • 递归关系和方程

  • 函数的增长和On)符号概念

5.2
常用知识点的举例

   在社交网络分析中,您需要知道图的属性和快速算法以搜索和遍历网络。在任何算法选择中,您都需要通过使用 O(n)(Big-Oh)表示法来了解时间和空间复杂度,即运行时间和空间要求如何随输入数据大小而增长。


5.3
学习资源的推荐 
  • Introduction to Discrete Mathematics for Computer Science Specialization — Cousera, Univ. of California San Diego

  • Introduction to Mathematical Thinking — Coursera, Stanford

  • Master Discrete Mathematics: Sets, Math Logic, and More — Udemy



6 优化论与运筹学     


6.1
必备的知识点     

     此部分应用数学中的传统话语没什么不同,因为它们在专业领域 - 理论计算机科学,控制理论或运筹学 - 中最为相关和最广泛使用。然而,在机器学习的实践中,对这些强大技术的基本理解可以非常有成效。实际上,每种机器学习算法/技术都旨在最小化受各种约束影响的某种估计误差。那就是优化问题。要学习的内容:

  • 优化的基础 - 如何制定问题

  • 最大值,最小值,凸函数,全局解

  • 线性规划,单纯形算法

  • 整数编程

  • 约束编程,背包问题


6.2
常用知识点的举例   

    使用最小平方损失函数的简单线性回归问题通常具有精确的解析解。但逻辑回归问题却没有。要理解原因,您需要了解优化中凸性的概念。这一调查也将阐明为什么我们必须对大多数机器学习问题中的“近似”解决方案保持满意。


6.3
学习资源的推荐  
  • Optimization Methods in Business Analytics — edX, MIT

  • Discrete Optimization — Coursera, University of Melbourne

  • Deterministic Optimization — edX, Georgia Tech

备注,本文由李昊璟、朝乐门负责翻译、编辑、排版和校对。原文提名为《Essential Math for Data Science — ‘Why’ and ‘How》,作者 为Tirthajyoti Sarkar,URL为https://towardsdatascience.com/essential-math-for-data-science-why-and-how-e88271367fbd。转载请注明出处。

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

关联阅读

原创系列文章:

1:从0开始搭建自己的数据运营指标体系(概括篇)

2 :从0开始搭建自己的数据运营指标体系(定位篇)

3 :从0开始搭建自己的数据运营体系(业务理解篇)

4 :数据指标的构建流程与逻辑

5 :系列 :从数据指标到数据运营指标体系

6:   实战 :为自己的公号搭建一个数据运营指标体系

7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

数据运营 关联文章阅读:  

运营入门,从0到1搭建数据分析知识体系    

推荐 :数据分析师与运营协作的9个好习惯

干货 :手把手教你搭建数据化用户运营体系

推荐 :最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始,构建数据化运营体系

干货 :解读产品、运营和数据三个基友关系

干货 :从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读:

干货 :数据分析团队的搭建和思考

关于用户画像那些事,看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系,看这一文章就够了

干货 : 聚焦于用户行为分析的数据产品

如何构建大数据层级体系,看这一文章就够了

80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

从底层到应用,那些数据人的必备技能

读懂用户运营体系:用户分层和分群

做运营必须掌握的数据分析思维,你还敢说不会做数据分析

合作请加qq:365242293  


更多相关知识请回复:“ 月光宝盒 ”;

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接