您好,登錄后才能下訂單哦!
這篇文章主要介紹“Python中常見的科學類庫怎么用”,在日常操作中,相信很多人在Python中常見的科學類庫怎么用問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Python中常見的科學類庫怎么用”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
提取數據,尤其是從網絡中提取數據,是數據科學家的重要任務之一。Wget 是一個免費的工具,用于從網絡上非交互式下載文件。它支持 HTTP、HTTPS 和 FTP 協議,以及通過 HTTP 代理進行訪問。因為它是非交互式的,所以即使用戶沒有登錄,它也可以在后臺工作。所以下次你想下載一個網站或者網頁上的所有圖片,wget 會提供幫助。
安裝:
$ pip install wget
例子:
import wgeturl = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'filename = wget.download(url)100% [................................................] 3841532 / 3841532filename'razorback.mp3'
對于在 Python 中處理日期時間感到沮喪的人來說, Pendulum 庫是很有幫助的。這是一個 Python 包,可以簡化日期時間操作。它是 Python 原生類的一個替代品。有關詳細信息,請參閱其文檔。
安裝:
$ pip install pendulum
例子:
import pendulumdt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')print(dt_vancouver.diff(dt_toronto).in_hours())3
當每個類別中的樣本數幾乎相同(即平衡)時,大多數分類算法會工作得最好。但是現實生活中的案例中充滿了不平衡的數據集,這可能會影響到機器學習算法的學習和后續預測。幸運的是,imbalanced-learn 庫就是為了解決這個問題而創建的。它與 scikit-learn 兼容,并且是 scikit-learn-contrib 項目的一部分。下次遇到不平衡的數據集時,可以嘗試一下。
安裝:
pip install -U imbalanced-learn# orconda install -c conda-forge imbalanced-learn
例子:
有關用法和示例,請參閱其文檔 。
在自然語言處理(NLP)任務中清理文本數據通常需要替換句子中的關鍵詞或從句子中提取關鍵詞。通常,這種操作可以用正則表達式來完成,但是如果要搜索的術語數達到數千個,它們可能會變得很麻煩。
Python 的 FlashText 模塊,基于 FlashText 算法,為這種情況提供了一個合適的替代方案。FlashText 的最佳部分是運行時間與搜索項的數量無關。你可以在其 文檔 中讀到更多關于它的信息。
安裝:
$ pip install flashtext
例子:
提取關鍵詞:
from flashtext import KeywordProcessorkeyword_processor = KeywordProcessor()# keyword_processor.add_keyword(, )keyword_processor.add_keyword('Big Apple', 'New York')keyword_processor.add_keyword('Bay Area')keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')keywords_found['New York', 'Bay Area']
替代關鍵詞:
keyword_processor.add_keyword('New Delhi', 'NCR region')new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')new_sentence'I love New York and NCR region.'
有關更多示例,請參閱文檔中的 用法 一節。
這個名字聽起來很奇怪,但是 FuzzyWuzzy 在字符串匹配方面是一個非常有用的庫。它可以很容易地實現字符串匹配率、令牌匹配率等操作。對于匹配保存在不同數據庫中的記錄也很方便。
安裝:
$ pip install fuzzywuzzy
例子:
from fuzzywuzzy import fuzzfrom fuzzywuzzy import process# 簡單的匹配率fuzz.ratio("this is a test", "this is a test!")97# 部分的匹配率 fuzz.partial_ratio("this is a test", "this is a test!") 100
更多的例子可以在 FuzzyWuzy 的 GitHub 倉庫得到。
時間序列分析是機器學習中最常遇到的問題之一。PyFlux 是 Python 中的開源庫,專門為處理時間序列問題而構建的。該庫擁有一系列優秀的現代時間序列模型,包括但不限于 ARIMA、GARCH 以及 VAR 模型。簡而言之,PyFlux 為時間序列建模提供了一種概率方法。這值得一試。
安裝:
pip install pyflux
例子:
有關用法和示例,請參閱其 文檔。
交流結果是數據科學的一個重要方面,可視化結果提供了顯著優勢。 IPyvolume 是一個 Python 庫,用于在 Jupyter 筆記本中可視化 3D 體積和形狀(例如 3D 散點圖),配置和工作量極小。然而,它目前處于 1.0 之前的階段。一個很好的類比是這樣的: IPyVolumee volshow 是 3D 陣列,Matplotlib 的 imshow 是 2D 陣列。你可以在其 文檔 中讀到更多關于它的信息。
安裝:
Using pip$ pip install ipyvolumeConda/Anaconda$ conda install -c conda-forge ipyvolume
例子:
動畫:
體繪制:
Dash 是一個用于構建 Web 應用程序的高效 Python 框架。它構建于 Flask、Plotty.js 和 Response.js 之上,將下拉菜單、滑塊和圖形等流行 UI 元素與你的 Python 分析代碼聯系起來,而不需要JavaScript。Dash 非常適合構建可在 Web 瀏覽器中呈現的數據可視化應用程序。有關詳細信息,請參閱其 用戶指南 。
安裝:
pip install dash==0.29.0 # The core dash backendpip install dash-html-components==0.13.2 # HTML componentspip install dash-core-components==0.36.0 # Supercharged componentspip install dash-table==3.1.3 # Interactive DataTable component (new!)
例子:
下面的示例顯示了一個具有下拉功能的高度交互的圖表。當用戶在下拉列表中選擇一個值時,應用程序代碼將數據從 Google Finance 動態導出到 Pandas 數據框架中。
從 OpenAI 而來的 Gym 是開發和比較強化學習算法的工具包。它與任何數值計算庫兼容,如 TensorFlow 或 Theano。Gym 是一個測試問題的集合,也稱為“環境”,你可以用它來制定你的強化學習算法。這些環境有一個共享的接口,允許您編寫通用算法。
安裝:
pip install gym
例子:
以下示例將在 CartPole-v0 環境中,運行 1000 次,在每一步渲染環境。
你可以在 Gym 網站上讀到 其它的環境 。
到此,關于“Python中常見的科學類庫怎么用”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。