推荐 :降维是数据科学家的必由之路
本文约2200字,建议阅读10分钟
本文为大家介绍了降维的概念及降维技术主成分分析(PCA)在特征工程中的应用。
https://datahack.analyticsvidhya.com/contest/data-science-blogathon-7/


1-D,2-D



它有助于消除冗余的特征和噪声误差因素,最终增强给定数据集的可视化。
由于降低了维度,可以表现出优秀的内存管理。
通过从数据集中删除不必要的特征列表来选择正确的特征,从而提高模型的性能。
当然,更少的维度(强制性的维度列表)需要更少的计算效率,更快地训练模型,提高模型的准确性。
大大降低了整个模型及其性能的复杂性和过拟合。




?#?Import?all?the?necessary?packagesimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import confusion_matrixfrom sklearn.metrics import accuracy_scorefrom sklearn import metrics%matplotlib inlineimport matplotlib.pyplot as plt%matplotlib inlinewq_dataset = pd.read_csv('winequality.csv')
wq_dataset.head(5)
wq_dataset.describe()
wq_dataset.isnull().any()
correlations = wq_dataset.corr()['quality'].drop('quality')print(correlations)

sns.heatmap(wq_dataset.corr())plt.show()

x = wq_dataset[features]y = wq_dataset['quality'][‘fixed acidity’, ‘volatile acidity’, ‘citric acid’, ‘chlorides’, ‘total sulfur dioxide’, ‘density’, ‘sulphates’, ‘alcohol’]
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=3)print('Traning data shape:', x_train.shape)print('Testing data shape:', x_test.shape)Traning data shape: (1199, 8)Testing data shape: (400, 8)
from sklearn.decomposition import PCApca_wins = PCA(n_components=2)principalComponents_wins = pca_wins.fit_transform(x)
pcs_wins_df?=?pd.DataFrame(data?=?principalComponents_wins,?columns?=?['principal?component?1',?'principal?component?2'])pcs_wins_df.head()
print('Explained variation per principal component: {}'.format(pca_wins.explained_variance_ratio_))Explained variation per principal component: [0.99615166 0.00278501]
逻辑回归
随机森林
KNN
朴素贝叶斯
原文标题:
Dimensionality Reduction a Descry for Data Scientist
原文链接:
https://www.analyticsvidhya.com/blog/2021/04/dimensionality-reduction-a-descry-for-data-scientist/
译者简介:王可汗,清华大学机械工程系直博生在读。曾经有着物理专业的知识背景,研究生期间对数据科学产生浓厚兴趣,对机器学习AI充满好奇。期待着在科研道路上,人工智能与机械工程、计算物理碰撞出别样的火花。希望结交朋友分享更多数据科学的故事,用数据科学的思维看待世界。
版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
合作请加QQ:365242293??
数据分析(ID?:?ecshujufenxi?)互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 打好关键核心技术攻坚战 7904862
- 2 在南海坠毁的2架美国军机已被捞出 7809084
- 3 立陶宛进入紧急状态 卢卡申科发声 7712797
- 4 持续巩固增强经济回升向好态势 7615891
- 5 多家店铺水银体温计售空 7519818
- 6 奶奶自爷爷去世9个月后变化 7427698
- 7 中科曙光终止重大资产重组 7327938
- 8 日舰曾收到中方提示 7235795
- 9 穷滑的年轻人把中产滑雪拉下神坛 7142280
- 10 我国成功发射遥感四十七号卫星 7040224







数据分析
