Python数据清洗 amp; 预处置进门完全指南

3年前 (2023-02-13)阅读16回复0

kewenda

管理员
注册排名1
经验值638710
级别管理员
主题127742
回复0

楼主

↓选举存眷↓

转自：关于数据阐发与可视化

凡事预则立，不预则废，操练机器进修模子也是如斯。数据清洗和预处置是模子操练之前的需要过程，不然模子可能就「废」了。本文是一个初学者指南，将带你领略若何在肆意的数据集上，针对肆意一个机器进修模子，完成数据预处置工做。

数据预处置是成立机器进修模子的第一步（也很可能是最重要的一步），对最末成果有决定性的感化：假设你的数据集没有完成数据清洗和预处置，那么你的模子很可能也不会有效——就是那么简单。

人们凡是认为，数据预处置是一个十分枯燥的部门。但它就是「做好预备」和「完全没有预备」之间的区别，也是表示专业和业余之间的区别。就像为度假做功德先预备一样，假设你提早将行程细节确定好，就可以预防旅途酿成一场噩梦。

那么，应该怎么做呢？

本文将带你领略，若何在肆意的数据集上，针对肆意一个机器进修模子，完成数据预处置工做。

导进数据

让我们从导进数据预处置所需要的库起头吧。库长短常棒的利用东西：将输进传递给库，它则完成响应的工做。你能够接触到十分多的库，但在 Python 中，有三个是最根底的库。任何时候，你都很可能最末仍是利用到它们。那三个在利用 Python 时最时髦的库就是 Numpy 、 Matplotlib 和 Pandas 。 Numpy 是称心所有数学运算所需要的库，因为代码是基于数学公式运行的，因而就会利用到它。 Maplotlib （详细而言， Matplotlib.pyplot ）则是称心绘图所需要的库。 Pandas 则是更好的导进并处置数据集的一个库。关于数据预处置而言， Pandas 和 Numpy 根本是必须的。

最恰当的体例是，在导进那些库的时候，付与其缩写的称唤形式，在之后的利用中，那能够节约必然的时间成本。那一步十分简单，能够用如**例实现：

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

如今，能够通过输进如下语句读进数据集

dataset = pd.read_csv( 'my_data.csv')

展开全文

那个语句告诉 Pandas(pd) 来读进数据集。在本文中，我也附上数据集的前几行数据。

我们有了数据集，但需要创建一个矩阵来保留自变量，以及一个向量来保留因变量。为了创建保留自变量的矩阵，输进语句：

X = dataset.iloc[:, :-1].values

第一个冒号表达提取数据集的全数行，「:-1」则表达提取除最初一列以外的所有列。最初的「.values」表达期看提取所有的值。接下来，我们期看创建保留因变量的向量，取数据的最初一列。输进语句：

y = dataset.iloc[:, 3].values

记住，在查看数据集的时候，索引（index）是从 0 起头的。所以，假设期看统计列数，从 0 起头计数而不是 1。「[:, :3]」会返回 animal 、 age 和 worth 三列。此中0表达 animal ，1表达 age ，2表达 worth 。关于那种计数办法，即便你没见过，也会在很短的时间内适应。

假设出缺失数据会怎么样？

事实上，我们总会碰着数据缺失。对此，我们能够将存在缺失的行间接删除，但那不是一个好办法，还很随便引提问题。因而需要一个更好的处理计划。最常用的办法是，用其所在列的均值来填充缺失。为此，你能够操纵 scikit-learn 预处置模子中的 inputer 类来很轻松地实现。（假设你还不晓得，那么我强烈定见你搞大白它： scikit-learn 包罗十分棒的机器进修模子）。在机器进修中，你可能其实不适应诸如「办法」、「类」和「对象」那些术语。那不是什么大问题！

类就是我们期看为某目标所成立的模子。假设我们期看搭建一个棚子，那么搭建规划就是一个类。

对象是类的一个实例。在那个例子中，根据规划所搭建出来的一个棚子就是一个对象。统一个类能够有良多对象，就像能够根据规划搭建出良多个棚子一样。

办法是我们能够在对象上利用的东西，或在对象上实现的函数：传递给它某些输进，它返回一个输出。那就像，当我们的棚子变得有点欠亨气的时候，能够利用「翻开窗户」那个办法。

类就是我们期看为某目标所成立的模子。假设我们期看搭建一个棚子，那么搭建规划就是一个类。

为了利用 imputer ，输进类似如下语句。

from sklearn.preprocessing import Imputer

imputer = Imputer(missing_values = np.nan, strategy = ‘mean’, axis = 0)

均值填充是默认的填充战略，所以其实不需要指定，加在此处是为了便利领会能够包罗什么信息。 missing_values 的默认值是 nan 。假设你的数据集中存在「 NaN 」形式的缺失值，那么你应该存眷 np.nan ，能够在此查看官方文档：

为了拟合那个 imputer ，输进：

imputer = imputer.fit(X[:, 1:3])

我们只期看在数据存在缺失的列上拟合 imputer 。那里的第一个冒号表达包罗所有行，而「1:3」则表达我们取索引为 1 和 2 的列。不要担忧，你很快就会习惯 Python 的计数办法的。

如今，我们期看挪用现实上能够替代填充缺失数据的办法。通过输进以下语句完成：

X[:, 1:3] = imputer.transform(X[:, 1:3])

多测验考试一些差别的填充战略。也许在某些项目中，你会发现，利用缺失值所在列的中位数或寡数来填充缺失值会愈加合理。填充战略之类的决策看似细微，但其实意义严重。因为时髦通用的办法其实不必然就是准确的抉择，关于模子而言，均值也纷歧定是更优的缺失填充抉择。

事实，几乎所有正阅读本文的人，都有高于均匀程度的手臂数。

假设包罗属性数据，会怎么样呢？

那是一个好问题。没有办法明白地计算诸如猫、狗、麋鹿的均值。那么能够怎么做呢？能够将属性数据编码为数值！你可能期看利用 sklearn.preprocessing 所供给的 LabelEncoder 类。从你期看停止编码的某列数据进手，挪用 label encoder 并拟合在你的数据上。

from sklearn.preprocessing import LabelEncoder

labelencoder_X = LabelEncoder

X[:, 0] = labelencoder_X.fit_transform(X[:, 0])

（还记得括号里的数字所表达的含义吗？「：」表达期看提取所有行的数据，0表达期看提取第一列）

那就是将第一列中的属性变量替代为数值所需的全数工做了。例如，麋鹿将用0表达，狗将用2表达，猫将用3表达。

你发现什么潜在问题了吗？

标注系统暗含以下信息：所利用的数值层级关系可能会影响模子成果：3 比 0 的数值大，但猫其实不必然比麋鹿大。

我们需要创建哑变量。

我们能够为猫创建一列数据，为麋鹿创建一列数据，……以此类推。然后，将每一列别离以 0/1 填充（认为 1=Yes，0 = No）。那表白，假设原始列的值为猫，那么就会在麋鹿一列得到 0，狗一列得到 0，猫一列得到 1。

看上往十分复杂。输进 OneHotEncoder 吧！

导进编码器，并造定对应列的索引。

from sklearn.preprocessing import OneHotEncoder

onehotencoder = OneHotEncoder(categorical_features = [0])

接着是一点拟合和转换。

X = onehotencoder.fit_transform(X).toarray

如今，你的那一列数据已经被替代为了那种形式：数据组中的每一个属性数据对应一列，并以1和0代替属性变量。十分贴心，对吧？假设我们的Y列也是如「Y」和「N」的属性变量，那么我们也能够在其上利用那个编码器。

labelencoder_y = LabelEncoder

y = labelencoder_y.fit_transform(y)

那会间接拟合并将 y 表达为编码变量：1 表达「Y」，0 表达「N」。

操练集与测试集的划分

如今，你能够起头将数据集划分为操练集和测试集了。那已经在之前的图像分类教程一文中阐述过了。不外记得，必然要将你的数据分为操练集和测试集，永久不要用测试集来操练！需要制止过拟合（能够认为，过拟合就像在一次检验前，记忆了许多细节，但没有理解此中的信息。假设只是记忆细节，那么当你本身在家复习常识卡片时，效果会很好，但在所有会察看新信息的实在检验中，城S不及格。）

如今，我们有了需要进修的模子。模子需要在数据上操练，并在别的的数据上完成测试。对操练集的记忆其实不等于进修。模子在操练集上进修得越好，就应该在测试集给出更好的揣测成果。过拟合永久都不是你想要的成果，进修才是！

起首，导进：

from sklearn.model_selection import train_test_split

如今，能够创建 X_train 、 X_test 、 y_train 和 y_test 聚集了。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

一种常见的办法是将数据集按 80/20 停止划分，此中 80% 的数据用做操练， 20% 的数据用做测试。那也是为何指定 test_size 为 0.2 的原因。你也能够根据本身的需求来肆意划分。你其实不需要设置 random_state ，那里设置的原因是为了能够完全复现成果。

特征缩放

什么是特征缩放？为什么需要特征缩放？

看看我们的数据。我们有一列动物年龄，范畴是4~17，还有一列动物价值，范畴是 83,000 。价值一栏的数值不只远大于年龄一栏，并且它还包罗愈加宽广的数据范畴。那表白，欧式间隔将完全由价值那一特征所主导，而漠视年龄数据的主导效果。假设欧式间隔在特定机器进修模子中并没有详细感化会怎么样？缩放特征将仍可以加速模子，因而，你能够在数据预处置中，加进特征缩放那一步。

特征缩放的办法有良多。但它们都意味着我们将所有的特征放在统一量纲上，进而没有一个会被另一个所主导。

导进相关库起头：

from sklearn.preprocessing import StandardScaler

创建一个需要缩放对象并挪用 Standard Scaler 。

sc_X = StandardScaler

间接在数据集长进行拟合以及变更。获取对象并利用办法。

X_train = sc_X.fit_transform(X_train)

X_test = sc_X.transform(X_test)

不需要在测试集长进行拟合，只停止变更。

sc_y = StandardScaler

y_train = sc_y.fit_transform(y_train)

关于哑变量而言，能否需要停止缩放？

关于那个问题，有些人认为需要，有些则认为不需要。那取决于你对模子可阐明性的垂青诚度。将所有数据缩放至统一量纲当然有益处，但缺点是，那丧失了阐明每个看测样本回属于哪个变量的便当性。

关于Y呢？假设因变量是0和1，那么其实不需要停止特征缩放。那是一个具有明白相关值的分类问题。但假设其取值范畴十分大，那么谜底是你需要做缩放。

恭喜你，你已经完成了数据预处置的工做！

通过少量的几行代码，你已经领略了数据清洗和预处置的根底。毫无疑问，在数据预处置那一步中，你能够加进良多本身的设法：你可能会想若何填充缺失值。根究能否缩放特征以及若何缩放特征？能否引进哑变量？能否要对数据做编码？能否编码哑变量……有十分多需要考虑的细节。如今，你已经完全领会了那些，能够亲身脱手尝尝了，预备数据吧！

【注释完毕】

- EOF -

加主页君微信，不只数据阐发和开发技能+1

主页君日常还会在小我微信分享数据阐发和开发相关东西、资本和精选手艺文章，不按期分享一些有意思的活动、岗位内推以及若何用手艺做业余项目

加个微信，翻开一扇窗

点击题目可跳转

1、数据清洗预处置进门完全指南

2、用 pandas 高效清洗文本数据

3、清点 66 个 Pandas 函数，轻松搞定“数据清洗”！

看完本文有收获？请转发分享给更多人

选举存眷「数据阐发与开发」，提拔数据技能

点赞和在看就是更大的撑持❤️

欧式模型

回帖 奇裕分享：若何抉择硅橡胶密封条的硬度？ 天津斥资8亿的景区，4A天分门票免费，被称为津版“小故宫”

Python数据清洗 amp; 预处置进门完全指南期待您的回复！

取消

Python数据清洗 amp; 预处置进门完全指南

Python数据清洗 amp; 预处置进门完全指南 期待您的回复！

插入网络图片

Python数据清洗 amp; 预处置进门完全指南期待您的回复！