中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

pandas中的數據去重處理的實現方法

發布時間:2020-10-16 13:09:46 來源:腳本之家 閱讀:611 作者:我是小螞蟻 欄目:開發技術

數據去重可以使用duplicated()和drop_duplicates()兩個方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重復行

參數: 
subset:列標簽或標簽序列,可選
僅考慮用于標識重復項的某些列,默認情況下使用所有列
keep:{‘first',‘last',False},默認'first'

  • first:標記重復,True除了第一次出現。
  • last:標記重復,True除了最后一次出現。
  • 錯誤:將所有重復項標記為True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重復值
# 參數 keep 可以標記重復值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 刪除 series 重復數據
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 刪除 dataframe 重復數據
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 來 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二個參數 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一個
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重復行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默認情況下使用所有列

keep : {'first','last',False},默認'first'

first :刪除重復項保留第一次出現的。last :刪除重復項保留最后一次出現的。false:刪除所有重復項。

inplace : 布爾值,默認為False          是否刪除重復項或返回副本

栗子:

pandas中的數據去重處理的實現方法

到此這篇關于pandas中的數據去重處理的實現方法的文章就介紹到這了,更多相關Pandas 數據去重內容請搜索億速云以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持億速云!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

孟津县| 博白县| 乌兰浩特市| 靖安县| 绍兴市| 化隆| 金门县| 突泉县| 襄汾县| 福泉市| 滦平县| 英德市| 读书| 临清市| 边坝县| 瓦房店市| 岳阳县| 和硕县| 额济纳旗| 萍乡市| 石棉县| 遂宁市| 墨脱县| 汉中市| 临洮县| 高雄市| 玉龙| 浙江省| 屏东市| 庄浪县| 县级市| 同江市| 疏附县| 临清市| 津南区| 信宜市| 六安市| 通渭县| 五原县| 平果县| 综艺|