怎么使用Python實現數據清洗

發布時間：2022-08-09 11:53:33 來源：億速云閱讀：181 作者：iii 欄目：開發技術

本篇內容主要講解“怎么使用Python實現數據清洗”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“怎么使用Python實現數據清洗”吧!

去掉信息不全的用戶

描述

現有一個Nowcoder.csv文件，它記錄了牛客網的部分用戶數據，包含如下字段（字段與字段之間以逗號間隔）：

Nowcoder_ID：用戶ID
Level：等級
Achievement_value：成就值
Num_of_exercise：刷題量
Graduate_year：畢業年份
Language：常用語言
Continuous_check_in_days：最近連續簽到天數
Number_of_submissions：提交代碼次數
Last_submission_time：最后一次提交題目日期

運營同學正在做用戶調研，為了保證調研的可靠性，想要去掉那些信息不全的用戶，即去掉有缺失數據的行，請你幫助他去掉后輸出全部數據。

輸入描述

數據集直接從當前目錄下的Nowcoder.csv文件中讀取。

怎么使用Python實現數據清洗

輸出描述：

直接輸出清洗后的全部數據。

怎么使用Python實現數據清洗

答案

import pandas as pd

Nowcoder = pd.read_csv('Nowcoder.csv', sep=',', dtype=object)
pd.set_option('display.width', 300)  # 設置字符顯示寬度
pd.set_option('display.max_rows', None)  # 設置顯示最大行
pd.set_option('display.max_columns', None)
print(Nowcoder[Nowcoder.isna() == False])

怎么使用Python實現數據清洗

修補缺失的用戶數據

描述

現有一個Nowcoder.csv文件，它記錄了牛客網的部分用戶數據，包含如下字段（字段與字段之間以逗號間隔）：

Nowcoder_ID：用戶ID
Level：等級
Achievement_value：成就值
Num_of_exercise：刷題量
Graduate_year：畢業年份
Language：常用語言
Continuous_check_in_days：最近連續簽到天數
Number_of_submissions：提交代碼次數
Last_submission_time：最后一次提交題目日期

運營同學拿到了這份用戶文件，但是由于系統BUG，出現了部分缺失的值，請你使用當前的最大年份填充缺失的畢業年份（“Graduate_year”），用Python填充缺失的常用語言（“Language”），用成就值的均值（四舍五入保留整數）填充缺失的成就值（“Achievement_value”）。

輸入描述

數據集直接從當前目錄下的Nowcoder.csv文件中讀取。

怎么使用Python實現數據清洗

輸出描述：

輸出修改后的全部數據，不用處理輸出時年份與成就值的小數點問題。

怎么使用Python實現數據清洗

答案

import pandas as pd

Nowcoder = pd.read_csv('Nowcoder.csv', sep=',')
pd.set_option('display.width', 300)  # 設置字符顯示寬度
pd.set_option('display.max_rows', None)  # 設置顯示最大行
pd.set_option('display.max_columns', None)
Nowcoder["Graduate_year"].fillna(Nowcoder["Graduate_year"].max())
Nowcoder["Language"].fillna("Python")
Nowcoder["Achievement_value"].fillna(Nowcoder["Achievement_value"].mean().round(0))
print(Nowcoder)

怎么使用Python實現數據清洗

解決牛客網用戶重復的數據

描述

現有一個Nowcoder.csv文件，它記錄了牛客網的部分用戶數據，包含如下字段（字段與字段之間以逗號間隔）：

Nowcoder_ID：用戶ID
Level：等級
Achievement_value：成就值
Num_of_exercise：刷題量
Graduate_year：畢業年份
Language：常用語言
Continuous_check_in_days：最近連續簽到天數
Number_of_submissions：提交代碼次數
Last_submission_time：最后一次提交題目日期

牛牛拿到這份文件的時候一臉懵逼，因為系統錯誤將很多相同用戶的數據輸出了多條，導致文件中有很多重復的行，請先檢查每一行是否重復，然后輸出刪除重復行后的全部數據。

輸入描述

數據集直接從當前目錄下的Nowcoder.csv文件中讀取。

怎么使用Python實現數據清洗

輸出描述

先輸出每一行是否重復，再輸出去重后的文件全部數據

答案

import pandas as pd

Nowcoder = pd.read_csv('Nowcoder.csv', sep=',', dtype=object)
pd.set_option('display.width', 1000)
pd.set_option('display.max_rows', None)
print(Nowcoder.duplicated())
print(Nowcoder.drop_duplicates(0))

怎么使用Python實現數據清洗

統一最后刷題日期的格式

描述

現有一個Nowcoder.csv文件，它記錄了牛客網的部分用戶數據，包含如下字段（字段與字段之間以逗號間隔）：

Nowcoder_ID：用戶ID
Level：等級
Achievement_value：成就值
Num_of_exercise：刷題量
Graduate_year：畢業年份
Language：常用語言
Continuous_check_in_days：最近連續簽到天數
Number_of_submissions：提交代碼次數
Last_submission_time：最后一次提交題目日期

運營同學發現最后一次提交題目日期這一列有各種各樣的日期格式，這對于他分析用戶十分不友好，你能夠幫他輸出用戶ID、等級以及統一后的日期嗎？（日期格式統一為yyyy-mm-dd）

輸入描述

數據集直接從當前目錄下的Nowcoder.csv文件中讀取。

怎么使用Python實現數據清洗

輸出描述

輸出用戶ID、等級與最后提交日期三列，包括行號。

怎么使用Python實現數據清洗

答案

import pandas as pd
Nowcoder = pd.read_csv('Nowcoder.csv',sep=',',dtype=object)
Nowcoder['Last_submission_time'] = pd.to_datetime(Nowcoder["Last_submission_time"],format="%Y-%m-%d")
print(Nowcoder[['Nowcoder_ID','Level','Last_submission_time']])

怎么使用Python實現數據清洗

將用戶的json文件轉換為表格形式

描述

現有一個Nowcoder.json文件，它記錄了牛客網的部分用戶數據，包含如下字段（字段與字段之間以逗號間隔）：

Nowcoder_ID：用戶ID
Level：等級
Achievement_value：成就值
Graduate_year：畢業年份
Language：常用語言

如果你讀入了這個json文件，能將其轉換為pandas的DataFrame格式嗎？

輸入描述：

數據集直接從當前目錄下的Nowcoder.json文件中讀取。

怎么使用Python實現數據清洗

輸出描述：

輸出轉換為DataFrame的全部數據，包括行號。

怎么使用Python實現數據清洗

答案

import pandas as pd
import json

pd.set_option('display.width', 300)  # 設置字符顯示寬度
pd.set_option('display.max_rows', None)  # 設置顯示最大行
pd.set_option('display.max_columns', None)
with open('Nowcoder.json', 'r') as f:
    data = json.loads(f.read())
     
    df = pd.DataFrame.from_dict(data)
    print(df)

怎么使用Python實現數據清洗

到此，相信大家對“怎么使用Python實現數據清洗”有了更深的了解，不妨來實際操作一番吧！這里是億速云網站，更多相關內容可以進入相關頻道進行查詢，關注我們，繼續學習！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

怎么使用Python實現數據清洗

去掉信息不全的用戶

描述

答案

修補缺失的用戶數據

描述

答案

解決牛客網用戶重復的數據

描述

答案

統一最后刷題日期的格式

描述

答案

將用戶的json文件轉換為表格形式

描述

答案

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

怎么使用Python實現數據清洗

去掉信息不全的用戶

描述

答案

修補缺失的用戶數據

描述

答案

解決牛客網用戶重復的數據

描述

答案

統一最后刷題日期的格式

描述

答案

將用戶的json文件轉換為表格形式

描述

答案

猜你喜歡

最新資訊

相關推薦

相關標簽