如何在Pytorch中使用Dataset和DataLoader讀取數據

發布時間：2021-05-24 15:47:57 來源：億速云閱讀：1312 作者：Leah 欄目：開發技術

本篇文章給大家分享的是有關如何在Pytorch中使用Dataset和DataLoader讀取數據，小編覺得挺實用的，因此分享給大家學習，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

一、前言

確保安裝

scikit-image
numpy

二、Dataset

一個例子：

# 導入需要的包
import torch
import torch.utils.data.dataset as Dataset
import numpy as np
 
# 編造數據
Data = np.asarray([[1, 2], [3, 4],[5, 6], [7, 8]])
Label = np.asarray([[0], [1], [0], [2]])
# 數據[1,2]，對應的標簽是[0]，數據[3,4],對應的標簽是[1]
 
 
#創建子類
class subDataset(Dataset.Dataset):
    #初始化，定義數據內容和標簽
    def __init__(self, Data, Label):
        self.Data = Data
        self.Label = Label
    #返回數據集大小
    def __len__(self):
        return len(self.Data)
    #得到數據內容和標簽
    def __getitem__(self, index):
        data = torch.Tensor(self.Data[index])
        label = torch.IntTensor(self.Label[index])
        return data, label
 
# 主函數
if __name__ == '__main__':
    dataset = subDataset(Data, Label)
    print(dataset)
    print('dataset大小為：', dataset.__len__())
    print(dataset.__getitem__(0))
    print(dataset[0])

輸出的結果

如何在Pytorch中使用Dataset和DataLoader讀取數據

我們有了對Dataset的一個整體的把握，再來分析里面的細節：

#創建子類
class subDataset(Dataset.Dataset):

創建子類時，繼承的時Dataset.Dataset，不是一個Dataset。因為Dataset是module模塊，不是class類，所以需要調用module里的class才行，因此是Dataset.Dataset！

len和getitem這兩個函數，前者給出數據集的大小**，后者是用于查找數據和標簽。是最重要的兩個函數，我們后續如果要對數據做一些操作基本上都是再這兩個函數的基礎上進行。

三、DatasetLoader

DataLoader(dataset,
           batch_size=1,
           shuffle=False,
           sampler=None,
           batch_sampler=None,
           num_works=0,
           clollate_fn=None,
           pin_memory=False,
           drop_last=False,
           timeout=0,
           worker_init_fn=None,
           multiprocessing_context=None)

功能：構建可迭代的數據裝載器；
dataset:Dataset類，決定數據從哪里讀取及如何讀取；數據集的路徑
batchsize：批大小；
num_works:是否多進程讀取數據；只對于CPU
shuffle：每個epoch是否打亂；
drop_last：當樣本數不能被batchsize整除時，是否舍棄最后一批數據；
Epoch：所有訓練樣本都已輸入到模型中，稱為一個Epoch；
Iteration：一批樣本輸入到模型中，稱之為一個Iteration；
Batchsize：批大小，決定一個Epoch中有多少個Iteration；

還是舉一個實例：

import torch
import torch.utils.data.dataset as Dataset
import torch.utils.data.dataloader as DataLoader
import numpy as np
 
Data = np.asarray([[1, 2], [3, 4],[5, 6], [7, 8]])
Label = np.asarray([[0], [1], [0], [2]])
#創建子類
class subDataset(Dataset.Dataset):
    #初始化，定義數據內容和標簽
    def __init__(self, Data, Label):
        self.Data = Data
        self.Label = Label
    #返回數據集大小
    def __len__(self):
        return len(self.Data)
    #得到數據內容和標簽
    def __getitem__(self, index):
        data = torch.Tensor(self.Data[index])
        label = torch.IntTensor(self.Label[index])
        return data, label
 
if __name__ == '__main__':
    dataset = subDataset(Data, Label)
    print(dataset)
    print('dataset大小為：', dataset.__len__())
    print(dataset.__getitem__(0))
    print(dataset[0])
 
    #創建DataLoader迭代器，相當于我們要先定義好前面說的Dataset,然后再用Dataloader來對數據進行一些操作，比如是否需要打亂，則shuffle=True,是否需要多個進程讀取數據num_workers=4,就是四個進程
 
    dataloader = DataLoader.DataLoader(dataset,batch_size= 2, shuffle = False, num_workers= 4)
    for i, item in enumerate(dataloader): #可以用enumerate來提取出里面的數據
        print('i:', i)
        data, label = item #數據是一個元組
        print('data:', data)
        print('label:', label)

四、將Dataset數據和標簽放在GPU上（代碼執行順序出錯則會有bug）

這部分可以直接去看博客：Dataset和DataLoader

總結下來時有兩種方法解決

1.如果在創建Dataset的類時，定義__getitem__方法的時候，將數據轉變為GPU類型。則需要將Dataloader里面的參數num_workers設置為0，因為這個參數是對于CPU而言的。如果數據改成了GPU,則只能單進程。如果是在Dataloader的部分，先多個子進程讀取，再轉變為GPU，則num_wokers不用修改。就是上述__getitem__部分的代碼，移到Dataloader部分。

2.不過一般來講，數據集和標簽不會像我們上述編輯的那么簡單。一般再kaggle上的標簽都是存在CSV這種文件中。需要pandas的配合。

這個進階可以看：WRITING CUSTOM DATASETS, DATALOADERS AND TRANSFORMS，他是用人臉圖片作為數據和人臉特征點作為標簽。

pytorch的優點

1.PyTorch是相當簡潔且高效快速的框架；2.設計追求最少的封裝；3.設計符合人類思維，它讓用戶盡可能地專注于實現自己的想法；4.與google的Tensorflow類似，FAIR的支持足以確保PyTorch獲得持續的開發更新；5.PyTorch作者親自維護的論壇供用戶交流和求教問題6.入門簡單

以上就是如何在Pytorch中使用Dataset和DataLoader讀取數據，小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

如何在Pytorch中使用Dataset和DataLoader讀取數據

一、前言

二、Dataset

三、DatasetLoader

四、將Dataset數據和標簽放在GPU上（代碼執行順序出錯則會有bug）

pytorch的優點

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

如何在Pytorch中使用Dataset和DataLoader讀取數據

一、前言

二、Dataset

三、DatasetLoader

四、將Dataset數據和標簽放在GPU上（代碼執行順序出錯則會有bug）

pytorch的優點

猜你喜歡

最新資訊

相關推薦

相關標簽