您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關Python數據挖掘如何進行預處理的內容。小編覺得挺實用的,因此分享給大家做個參考。一起跟隨小編過來看看吧。
Python數據預處理實戰
常見的數據預處理方法如下內容:
1、缺失值處理
缺失值是指在一組數據中,某行數據缺失的某個特征值。
2、異常值處理
異常值產生的原因往往是數據在采集時發生了錯誤,如在采集數字68時發生了錯誤,誤將其采集成680。
3、數據集成
相較于上文的缺失值處理和異常值處理,數據集成是一種較為簡單的數據預處理方式。
接下來以淘寶商品數據為例,介紹一下上文預處理的實戰。
在進行數據預處理之前,首先需要從MySQL數據庫中導入淘寶商品數據。在開啟MySQL數據庫之后,對其中的taob表進行查詢,得到了如下的輸出:
可以看到,taob表中有四個字段。其中title字段用于存儲淘寶商品的名稱;link字段存儲淘寶商品的鏈接;price存儲淘寶商品的價格;comment存儲淘寶商品的評論數(一定程度上代表商品的銷量)。
通過pymysql連接數據庫(如果出現亂碼,則對pymysql的源碼進行修改),連接成功后,將taob中的數據全部檢索出來,然后借助pandas中的read_sql()方法便可以將數據導入到內存中。
感謝各位的閱讀!關于Python數據挖掘如何進行預處理就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。