您好,登錄后才能下訂單哦!
這篇文章主要講解了“Python時間序列數據操作的常用方法有哪些”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“Python時間序列數據操作的常用方法有哪些”吧!
時間序列數據是一種在一段時間內收集的數據類型,它通常用于金融、經濟學和氣象學等領域,經常通過分析來了解隨著時間的推移的趨勢和模式
Pandas是Python中一個強大且流行的數據操作庫,特別適合處理時間序列數據。它提供了一系列工具和函數可以輕松加載、操作和分析時間序列數據。
在本文中,我們介紹時間序列數據的索引和切片、重新采樣和滾動窗口計算以及其他有用的常見操作,這些都是使用Pandas操作時間序列數據的關鍵技術。
在Python中,沒有專門用于表示日期的內置數據類型。一般情況下都會使用datetime模塊提供的datetime對象進行日期時間的操作。
import datetime t = datetime.datetime.now() print(f"type: {type(t)} and t: {t}") #type:and t: 2022-12-26 14:20:51.278230
一般情況下我們都會使用字符串的形式存儲日期和時間。所以在使用時我們需要將這些字符串進行轉換成datetime對象。
一般情況下時間的字符串有以下格式:
YYYY-MM-DD (e.g. 2022-01-01)
YYYY/MM/DD (e.g. 2022/01/01)
DD-MM-YYYY (e.g. 01-01-2022)
DD/MM/YYYY (e.g. 01/01/2022)
MM-DD-YYYY (e.g. 01-01-2022)
MM/DD/YYYY (e.g. 01/01/2022)
HH:MM:SS (e.g. 11:30:00)
HH:MM:SS AM/PM (e.g. 11:30:00 AM)
HH:MM AM/PM (e.g. 11:30 AM)
strptime 函數以字符串和格式字符串作為參數,返回一個datetime對象。
string = '2022-01-01 11:30:09' t = datetime.datetime.strptime(string, "%Y-%m-%d %H:%M:%S") print(f"type: {type(t)} and t: {t}") #type:and t: 2022-01-01 11:30:09
格式字符串如下:
還可以使用strftime函數將datetime對象轉換回特定格式的字符串表示。
t = datetime.datetime.now() t_string = t.strftime("%m/%d/%Y, %H:%M:%S") #12/26/2022, 14:38:47 t_string = t.strftime("%b/%d/%Y, %H:%M:%S") #Dec/26/2022, 14:39:32
Unix時間(POSIX時間或epoch時間)是一種將時間表示為單個數值的系統。它表示自1970年1月1日星期四00:00:00協調世界時(UTC)以來經過的秒數。
Unix時間和時間戳通常可以互換使用。Unix時間是創建時間戳的標準版本。一般情況下使用整數或浮點數據類型用于存儲時間戳和Unix時間。
我們可以使用time模塊的mktime方法將datetime對象轉換為Unix時間整數。也可以使用datetime模塊的fromtimestamp方法。
#convert datetime to unix time import time from datetime import datetime t = datetime.now() unix_t = int(time.mktime(t.timetuple())) #1672055277 #convert unix time to datetime unix_t = 1672055277 t = datetime.fromtimestamp(unix_t) #2022-12-26 14:47:57
使用dateutil模塊來解析日期字符串獲得datetime對象。
from dateutil import parser date = parser.parse("29th of October, 1923") #datetime.datetime(1923, 10, 29, 0, 0)
Pandas提供了三種日期數據類型:
1、Timestamp或DatetimeIndex:它的功能類似于其他索引類型,但也具有用于時間序列操作的專門函數。
t = pd.to_datetime("29/10/1923", dayfirst=True) #Timestamp('1923-10-29 00:00:00') t = pd.Timestamp('2019-01-01', tz = 'Europe/Berlin') #Timestamp('2019-01-01 00:00:00+0100', tz='Europe/Berlin') t = pd.to_datetime(["04/23/1920", "10/29/1923"]) #DatetimeIndex(['1920-04-23', '1923-10-29'], dtype='datetime64[ns]', freq=None)
2、period或PeriodIndex:一個有開始和結束的時間間隔。它由固定的間隔組成。
t = pd.to_datetime(["04/23/1920", "10/29/1923"]) period = t.to_period("D") #PeriodIndex(['1920-04-23', '1923-10-29'], dtype='period[D]')
3、Timedelta或TimedeltaIndex:兩個日期之間的時間間隔。
delta = pd.TimedeltaIndex(data =['1 days 03:00:00', '2 days 09:05:01.000030']) """ TimedeltaIndex(['1 days 02:00:00', '1 days 06:05:01.000030'], dtype='timedelta64[ns]', freq=None) """
在Pandas中,可以使用to_datetime方法將對象轉換為datetime數據類型或進行任何其他轉換。
import pandas as pd df = pd.read_csv("dataset.txt") df.head() """ date value 0 1991-07-01 3.526591 1 1991-08-01 3.180891 2 1991-09-01 3.252221 3 1991-10-01 3.611003 4 1991-11-01 3.565869 """ df.info() """RangeIndex: 204 entries, 0 to 203 Data columns (total 2 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 date 204 non-null object 1 value 204 non-null float64 dtypes: float64(1), object(1) memory usage: 3.3+ KB """ # Convert to datetime df["date"] = pd.to_datetime(df["date"], format = "%Y-%m-%d") df.info() """RangeIndex: 204 entries, 0 to 203 Data columns (total 2 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 date 204 non-null datetime64[ns] 1 value 204 non-null float64 dtypes: datetime64[ns](1), float64(1) memory usage: 3.3 KB """ # Convert to Unix df['unix_time'] = df['date'].apply(lambda x: x.timestamp()) df.head() """ date value unix_time 0 1991-07-01 3.526591 678326400.0 1 1991-08-01 3.180891 681004800.0 2 1991-09-01 3.252221 683683200.0 3 1991-10-01 3.611003 686275200.0 4 1991-11-01 3.565869 688953600.0 """ df["date_converted_from_unix"] = pd.to_datetime(df["unix_time"], unit = "s") df.head() """ date value unix_time date_converted_from_unix 0 1991-07-01 3.526591 678326400.0 1991-07-01 1 1991-08-01 3.180891 681004800.0 1991-08-01 2 1991-09-01 3.252221 683683200.0 1991-09-01 3 1991-10-01 3.611003 686275200.0 1991-10-01 4 1991-11-01 3.565869 688953600.0 1991-11-01 """
我們還可以使用parse_dates參數在任何文件加載時直接聲明日期列。
df = pd.read_csv("dataset.txt", parse_dates=["date"]) df.info() """RangeIndex: 204 entries, 0 to 203 Data columns (total 2 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 date 204 non-null datetime64[ns] 1 value 204 non-null float64 dtypes: datetime64[ns](1), float64(1) memory usage: 3.3 KB """
如果是單個時間序列的數據,最好將日期列作為數據集的索引。
df.set_index("date",inplace=True) """ Value date 1991-07-01 3.526591 1991-08-01 3.180891 1991-09-01 3.252221 1991-10-01 3.611003 1991-11-01 3.565869 ... ... 2008-02-01 21.654285 2008-03-01 18.264945 2008-04-01 23.107677 2008-05-01 22.912510 2008-06-01 19.431740 """
Numpy也有自己的datetime類型np.Datetime64。特別是在大型數據集時,向量化是非常有用的,應該優先使用。
import numpy as np arr_date = np.array('2000-01-01', dtype=np.datetime64) arr_date #array('2000-01-01', dtype='datetime64[D]') #broadcasting arr_date = arr_date + np.arange(30) """ array(['2000-01-01', '2000-01-02', '2000-01-03', '2000-01-04', '2000-01-05', '2000-01-06', '2000-01-07', '2000-01-08', '2000-01-09', '2000-01-10', '2000-01-11', '2000-01-12', '2000-01-13', '2000-01-14', '2000-01-15', '2000-01-16', '2000-01-17', '2000-01-18', '2000-01-19', '2000-01-20', '2000-01-21', '2000-01-22', '2000-01-23', '2000-01-24', '2000-01-25', '2000-01-26', '2000-01-27', '2000-01-28', '2000-01-29', '2000-01-30'], dtype='datetime64[D]') """
下面列出的是一些可能對時間序列有用的函數。
df = pd.read_csv("dataset.txt", parse_dates=["date"]) df["date"].dt.day_name() """ 0 Monday 1 Thursday 2 Sunday 3 Tuesday 4 Friday ... 199 Friday 200 Saturday 201 Tuesday 202 Thursday 203 Sunday Name: date, Length: 204, dtype: object """
Pandas_datareader是pandas庫的一個輔助庫。它提供了許多常見的金融時間序列數據。
#pip install pandas-datareader from pandas_datareader import wb #GDP per Capita From World Bank df = wb.download(indicator='NY.GDP.PCAP.KD', country=['US', 'FR', 'GB', 'DK', 'NO'], start=1960, end=2019) """ NY.GDP.PCAP.KD country year Denmark 2019 57203.027794 2018 56563.488473 2017 55735.764901 2016 54556.068955 2015 53254.856370 ... ... United States 1964 21599.818705 1963 20701.269947 1962 20116.235124 1961 19253.547329 1960 19135.268182 [300 rows x 1 columns] """
我們可以使用pandas的date_range方法定義一個日期范圍。
pd.date_range(start="2021-01-01", end="2022-01-01", freq="D") """ DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04', '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08', '2021-01-09', '2021-01-10', ... '2021-12-23', '2021-12-24', '2021-12-25', '2021-12-26', '2021-12-27', '2021-12-28', '2021-12-29', '2021-12-30', '2021-12-31', '2022-01-01'], dtype='datetime64[ns]', length=366, freq='D') """ pd.date_range(start="2021-01-01", end="2022-01-01", freq="BM") """ DatetimeIndex(['2021-01-29', '2021-02-26', '2021-03-31', '2021-04-30', '2021-05-31', '2021-06-30', '2021-07-30', '2021-08-31', '2021-09-30', '2021-10-29', '2021-11-30', '2021-12-31'], dtype='datetime64[ns]', freq='BM') """ fridays= pd.date_range('2022-11-01', '2022-12-31', freq="W-FRI") """ DatetimeIndex(['2022-11-04', '2022-11-11', '2022-11-18', '2022-11-25', '2022-12-02', '2022-12-09', '2022-12-16', '2022-12-23', '2022-12-30'], dtype='datetime64[ns]', freq='W-FRI') """
我們可以使用timedelta_range方法創建一個時間序列。
t = pd.timedelta_range(0, periods=10, freq="H") """ TimedeltaIndex(['0 days 00:00:00', '0 days 01:00:00', '0 days 02:00:00', '0 days 03:00:00', '0 days 04:00:00', '0 days 05:00:00', '0 days 06:00:00', '0 days 07:00:00', '0 days 08:00:00', '0 days 09:00:00'], dtype='timedelta64[ns]', freq='H') """
我們dt.strftime方法改變日期列的格式。
df["new_date"] = df["date"].dt.strftime("%b %d, %Y") df.head() """ date value new_date 0 1991-07-01 3.526591 Jul 01, 1991 1 1991-08-01 3.180891 Aug 01, 1991 2 1991-09-01 3.252221 Sep 01, 1991 3 1991-10-01 3.611003 Oct 01, 1991 4 1991-11-01 3.565869 Nov 01, 1991 """
解析datetime對象并獲得日期的子對象。
df["year"] = df["date"].dt.year df["month"] = df["date"].dt.month df["day"] = df["date"].dt.day df["calendar"] = df["date"].dt.date df["hour"] = df["date"].dt.time df.head() """ date value year month day calendar hour 0 1991-07-01 3.526591 1991 7 1 1991-07-01 00:00:00 1 1991-08-01 3.180891 1991 8 1 1991-08-01 00:00:00 2 1991-09-01 3.252221 1991 9 1 1991-09-01 00:00:00 3 1991-10-01 3.611003 1991 10 1 1991-10-01 00:00:00 4 1991-11-01 3.565869 1991 11 1 1991-11-01 00:00:00 """
還可以重新組合它們。
df["date_joined"] = pd.to_datetime(df[["year","month","day"]]) print(df["date_joined"]) """ 0 1991-07-01 1 1991-08-01 2 1991-09-01 3 1991-10-01 4 1991-11-01 ... 199 2008-02-01 200 2008-03-01 201 2008-04-01 202 2008-05-01 203 2008-06-01 Name: date_joined, Length: 204, dtype: datetime64[ns]
使用loc方法來過濾DataFrame。
df = df.loc["2021-01-01":"2021-01-10"]
truncate 可以查詢兩個時間間隔中的數據
df_truncated = df.truncate('2021-01-05', '2022-01-10')
下面就是對時間序列數據集中的值執行操作。我們使用yfinance庫創建一個用于示例的股票數據集。
#get google stock price data import yfinance as yf start_date = '2020-01-01' end_date = '2023-01-01' ticker = 'GOOGL' df = yf.download(ticker, start_date, end_date) df.head() """ Date Open High Low Close Adj Close Volume 2020-01-02 67.420502 68.433998 67.324501 68.433998 68.433998 27278000 2020-01-03 67.400002 68.687500 67.365997 68.075996 68.075996 23408000 2020-01-06 67.581497 69.916000 67.550003 69.890503 69.890503 46768000 2020-01-07 70.023003 70.175003 69.578003 69.755501 69.755501 34330000 2020-01-08 69.740997 70.592499 69.631500 70.251999 70.251999 35314000 """
diff函數可以計算一個元素與另一個元素之間的插值。
#subtract that day's value from the previous day df["Diff_Close"] = df["Close"].diff() #Subtract that day's value from the day's value 2 days ago df["Diff_Close_2Days"] = df["Close"].diff(periods=2)
df["Volume_Cumulative"] = df["Volume"].cumsum()
滾動窗口計算(移動平均線)。
df["Close_Rolling_14"] = df["Close"].rolling(14).mean() df.tail()
可以對我們計算的移動平均線進行可視化
常用的參數:
center:決定滾動窗口是否應以當前觀測值為中心。
min_periods:窗口中產生結果所需的最小觀測次數。
s = pd.Series([1, 2, 3, 4, 5]) #the rolling window will be centered on each observation rolling_mean = s.rolling(window=3, center=True).mean() """ 0 NaN 1 2.0 2 3.0 3 4.0 4 NaN dtype: float64 Explanation: first window: [na 1 2] = na second window: [1 2 3] = 2 """ # the rolling window will not be centered, #and will instead be anchored to the left side of the window rolling_mean = s.rolling(window=3, center=False).mean() """ 0 NaN 1 NaN 2 2.0 3 3.0 4 4.0 dtype: float64 Explanation: first window: [na na 1] = na second window: [na 1 2] = na third window: [1 2 3] = 2 """
Pandas有兩個方法,shift()和tshift(),它們可以指定倍數移動數據或時間序列的索引。Shift()移位數據,而tshift()移位索引。
#shift the data df_shifted = df.shift(5,axis=0) df_shifted.head(10) #shift the indexes df_tshifted = df.tshift(periods = 4, freq = 'D') df_tshifted.head(10)
df_shifted
df_tshifted
在 Pandas 中,操 to_period 函數允許將日期轉換為特定的時間間隔。可以獲取具有許多不同間隔或周期的日期
df["Period"] = df["Date"].dt.to_period('W')
Asfreq方法用于將時間序列轉換為指定的頻率。
monthly_data = df.asfreq('M', method='ffill')
常用參數:
freq:數據應該轉換到的頻率。這可以使用字符串別名(例如,'M'表示月,'H'表示小時)或pandas偏移量對象來指定。
method:如何在轉換頻率時填充缺失值。這可以是'ffill'(向前填充)或'bfill'(向后填充)之類的字符串。
resample可以改變時間序列頻率并重新采樣。我們可以進行上采樣(到更高的頻率)或下采樣(到更低的頻率)。因為我們正在改變頻率,所以我們需要使用一個聚合函數(比如均值、最大值等)。
resample方法的參數:
rule:數據重新采樣的頻率。這可以使用字符串別名(例如,'M'表示月,'H'表示小時)或pandas偏移量對象來指定。
#down sample monthly_data = df.resample('M').mean()
#up sample minute_data = data.resample('T').ffill()
使用pct_change方法來計算日期之間的變化百分比。
df["PCT"] = df["Close"].pct_change(periods=2) print(df["PCT"]) """ Date 2020-01-02 NaN 2020-01-03 NaN 2020-01-06 0.021283 2020-01-07 0.024671 2020-01-08 0.005172 ... 2022-12-19 -0.026634 2022-12-20 -0.013738 2022-12-21 0.012890 2022-12-22 -0.014154 2022-12-23 -0.003907 Name: PCT, Length: 752, dtype: float64 """
感謝各位的閱讀,以上就是“Python時間序列數據操作的常用方法有哪些”的內容了,經過本文的學習后,相信大家對Python時間序列數據操作的常用方法有哪些這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。