推荐 :在数据科学中需要多少数学技能?
Jeswin Thomas on Unsplash
I.引言
我几乎没有数学背景,可以成为一个数据科学家吗?
数据科学中的哪些基本数学技能很重要?
Ggplot2
Matplotlib
Seaborn
Scikit-learn
Caret
TensorFlow
PyTorch
Keras
借助这些软件包,任何人都可以构建模型或进行数据可视化。但是,扎实的数学背景知识对于模型微调(fine-tuning)以生成具有最佳性能的可靠模型至关重要。建立模型是一回事,但解释模型并得出可用于数据驱动决策的有意义的结论,是另一回事。重要的是,在使用这些软件包之前,您必须了解每个软件包的数学基础,这样才能避免将这些软件包仅仅用作“黑匣子”工具。
II.案例:建立多元回归模型
我的数据集有多大?
我的特征变量和目标变量是什么?
哪些预测特征与目标变量最相关?
哪些特征很重要?
我应该进行特征缩放吗?
我的数据集应如何划分为训练集和测试集?
什么是主成分分析(PCA)?
我应该使用PCA删除冗余特征吗?
如何评估我的模型?我应该使用R2_score,平均平方误差(MSE)还是平均绝对误差(MAE)?
如何提高模型的预测能力?
我应该使用正则化回归模型吗?
哪些是回归系数?
哪些是截距?
我应该使用非参数回归模型,例如K近邻回归还是支持向量回归(SVR)?
我的模型中有哪些超参数,如何对其进行微调以获得性能最佳的模型?
教程
https://medium.com/swlh/machine-learning-process-tutorial-222327f53efb
Ⅲ. 数据科学和机器学习的基本数学技能
均值,中位数,众数,标准差/方差,相关系数,协方差矩阵;
概率分布(二项分布、泊松分布、正态分布),p值,贝叶斯定理(精度、召回率、阳性预测值、阴性预测值、混淆矩阵、ROC曲线);
中心极限定理,R2_score,MSE(均方误差),A / B测试,蒙特卡洛模拟…
多变量函数;
导数和梯度;
阶跃函数,Sigmoid函数,Logit函数,ReLU函数(整流线性单位函数,Rectified Linear Unit);
成本函数;
函数绘图;
函数的最小值和最大值…
向量;
向量的范数;
矩阵,转置矩阵,矩阵的逆,矩阵的行列式,矩阵的迹;
点积,特征值,特征向量…
成本函数/目标函数;
似然函数;
损失函数;
梯度下降算法及其变体(例如,随机梯度下降算法)…
IV.结论
参考资料
Linear Regression Basics for Absolute Beginners.
Mathematics of Principal Component Analysis with R Code Implementation.
Machine Learning Process Tutorial.
Original. Reposted with permission.
版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
合作请加QQ:365242293
数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 奋力打开改革发展新天地 7960697
- 2 36岁女子看高血压查出怀孕34周 7965707
- 3 日本火山喷发灰柱高达3400米 7897319
- 4 “冷资源”里的“热经济” 7726965
- 5 刘诗诗方辟谣离婚 7620619
- 6 女子8年生6个女儿第7胎再产女 7507026
- 7 #胡锡进的2024年终总结# 7461646
- 8 肖战新片射雕英雄传郭靖造型曝光 7342481
- 9 女法官遇害案凶手被判死刑 7205941
- 10 蒋欣生图更是妈妈级别 7175590