推荐 :降维是数据科学家的必由之路
本文约2200字,建议阅读10分钟
本文为大家介绍了降维的概念及降维技术主成分分析(PCA)在特征工程中的应用。
https://datahack.analyticsvidhya.com/contest/data-science-blogathon-7/
1-D,2-D
它有助于消除冗余的特征和噪声误差因素,最终增强给定数据集的可视化。
由于降低了维度,可以表现出优秀的内存管理。
通过从数据集中删除不必要的特征列表来选择正确的特征,从而提高模型的性能。
当然,更少的维度(强制性的维度列表)需要更少的计算效率,更快地训练模型,提高模型的准确性。
大大降低了整个模型及其性能的复杂性和过拟合。
# Import all the necessary packages
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn import metrics
%matplotlib inline
import matplotlib.pyplot as plt
%matplotlib inline
wq_dataset = pd.read_csv('winequality.csv')
wq_dataset.head(5)
wq_dataset.describe()
wq_dataset.isnull().any()
correlations = wq_dataset.corr()['quality'].drop('quality')
print(correlations)
sns.heatmap(wq_dataset.corr())
plt.show()
x = wq_dataset[features]
y = wq_dataset['quality']
[‘fixed acidity’, ‘volatile acidity’, ‘citric acid’, ‘chlorides’, ‘total sulfur dioxide’, ‘density’, ‘sulphates’, ‘alcohol’]
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=3)
print('Traning data shape:', x_train.shape)
print('Testing data shape:', x_test.shape)
Traning data shape: (1199, 8)
Testing data shape: (400, 8)
from sklearn.decomposition import PCA
pca_wins = PCA(n_components=2)
principalComponents_wins = pca_wins.fit_transform(x)
pcs_wins_df = pd.DataFrame(data = principalComponents_wins, columns = ['principal component 1', 'principal component 2'])
pcs_wins_df.head()
print('Explained variation per principal component: {}'.format(pca_wins.explained_variance_ratio_))
Explained variation per principal component: [0.99615166 0.00278501]
逻辑回归
随机森林
KNN
朴素贝叶斯
原文标题:
Dimensionality Reduction a Descry for Data Scientist
原文链接:
https://www.analyticsvidhya.com/blog/2021/04/dimensionality-reduction-a-descry-for-data-scientist/
译者简介:王可汗,清华大学机械工程系直博生在读。曾经有着物理专业的知识背景,研究生期间对数据科学产生浓厚兴趣,对机器学习AI充满好奇。期待着在科研道路上,人工智能与机械工程、计算物理碰撞出别样的火花。希望结交朋友分享更多数据科学的故事,用数据科学的思维看待世界。
版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
合作请加QQ:365242293
数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 澳门是伟大祖国的一方宝地 7939638
- 2 80岁顶级富豪再婚娶33岁华裔妻子 7974671
- 3 星巴克大罢工 7849574
- 4 2024 向上的中国 7776538
- 5 赵丽颖带儿子探班 7638456
- 6 男子钓上一条自带“赎金”的鱼 7500517
- 7 美国女子在地铁上被男子点燃身亡 7464782
- 8 柳岩谈44岁女演员的尴尬 7362958
- 9 唐尚珺35岁读大一 7217342
- 10 武警江西省总队原总队长施文求逝世 7100488