您好,登錄后才能下訂單哦!
先來一份完整的爬蟲工程師面試考點:
一、 Python 基本功
1、簡述Python 的特點和優點
Python 是一門開源的解釋性語言,相比 Java C++ 等語言,Python 具有動態特性,非常靈活。
2、Python 有哪些數據類型?
Python 有 6 種內置的數據類型,其中不可變數據類型是Number(數字), String(字符串), Tuple(元組),可變數據類型是 List(列表),Dict(字典),Set(集合)。
3、列表和元組的區別
列表和元組都是可迭代對象,能夠對其進行循環、切片等,但元組 tuple 是不可變的。元組不可變的特性,使得它可以成為字典 Dict 中的鍵。
4、Python 是如何運行的
CPython:
Python 程序運行時,會先進行編譯,將 .py 文件中的代碼編譯成字節碼(byte code),編譯結果儲存在內存的 PyCodeObject 中,然后由 Python 虛擬機解釋運行。當程序運行結束后,Python 解釋器會將 PyCodeObject 保存到 pyc 文件中。每一次運行時 Python 都會先尋找與文件同名的 pyc 文件,如果 pyc 存在則比對修改記錄,根據修改記錄決定直接運行或再次編譯后運行,最后生成 pyc 文件 。
5、Python 運行速度慢的原因
a). Python 不是強類型的語言,所以解釋器運行時遇到變量以及數據類型轉換、比較操作、引用變量時都需要檢查其數據類型。
b). Python 的編譯器啟動速度比 JAVA 快,但幾乎每次都要啟動編譯。
c). Python 的對象模型會導致訪問內存效率變低。Numpy 的指針指向緩存區數據的值,而 Python 的指針指向緩存對象,再通過緩存對象指向數據:
6、面對 Python 慢的問題,有什么解決辦法
a). 可以使用其他的解釋器,比如 PyPy 和 Jython 等。
b). 如果對性能要求較高且靜態類型變量較多的應用程序,可以使用 CPython。
c). 對于 IO 操作多的應用程序,Python 提供 asyncio 模塊提高異步能力。
7、描述一下全局解釋器鎖 GIL
每個線程在執行時候都需要先獲取 GIL,保證同一時刻只有一個線程可以執行代碼,即同一時刻只有一個線程使用 CPU,也就是說多線程并不是真正意義上的同時執行。但是在 IO 操作時,是可以釋放鎖的(這也是 Python 能夠異步的原因)。而且如果想要利用多核 CPU,那么可以使用多進程。
8、深拷貝 淺拷貝
深拷貝是將對象本身復制給另一個對象,淺拷貝則是將對象的引用復制給另一個對象。所以當復制后的對象改變時,深拷貝的原對象值不會改變,而淺拷貝原對象的值會被改變。
9、is 和 == 的區別
is 表示的是對象標示符(object identity),而 == 表示的是相等(equality)。
is 的作用是用來檢查對象的標示符是否一致,也就是比較兩個對象在內存中的地址是否一樣,而 == 是用來檢查兩個對象是否相等。但是為了提高系統性能,對于較小的字符串 Python 會保留其值的一個副本,當創建新的字符串的時候直接指向該副本即可。如:
a = 8
b = 8
a is b
10、文件讀寫
簡述文件讀取時 read 、readline、readlines 的區別和作用
他們的區別除了讀取內容范圍不同外,返回的內容類型也不同。
read()會讀取整個文件,將讀取到底的文件內容放到一個字符串變量,返回 str 類型。
readline()讀取一行內容,放到一個字符串變量,返回 str 類型。
readlines() 讀取文件所有內容,按行為單位放到一個列表中,返回 list 類型。
11、請用一行代碼實現
請分別使用匿名函數和推導式這兩種方式將 [0, 1, 2, 3, 4, 5] 中的元素求乘積,并打印輸出元組。
print(tuple(map(lambda x: x * x, [0, 1, 2, 3, 4, 5]))) print(tuple(i*i for i in [0, 1, 2, 3, 4, 5]))
12、請用一行代碼實現
用 reduce 計算 n 的階乘(n!=1×2×3×...×n)
print(reduce(lambda x, y: x*y, range(1, n)))
13、請用一行代碼實現
篩選并打印輸出 100 以內能被 3 整除的數的集合
print(set(filter(lambda n: n % 3 == 0, range(1, 100))))
14、請用一行代碼實現
text = 'Obj{"Name": "pic", "data": [{"name": "async", "number": 9, "price": "$3500"}, {"name": "Wade", "number": 3, "price": "$5500"}], "Team": "Hot"'
打印文本中的球員身價元組,如 ( 5500)
print(tuple(i.get("price") for i in json.loads(re.search(r'[(.*)]', text).group(0))))
15、請寫出遞歸的基本骨架
def recursions(n): if n == 1: # 退出條件 return 1 # 繼續遞歸 return n * recursions(n - 1)
16、切片
請寫出下方輸出結果
tpl = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95] print(tpl[3:]) print(tpl[:3]) print(tpl[::5]) print(tpl[-3]) print(tpl[3]) print(tpl[::-5]) print(tpl[:]) del tpl[3:] print(tpl) print(tpl.pop()) tpl.insert(3, 3) print(tpl) [15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95] [0, 5, 10] [0, 25, 50, 75] 85 15 [95, 70, 45, 20] [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95] [0, 5, 10] 10 [0, 5, 3]
17、文件路徑
打印輸出當前文件所在目錄路徑
import os print(os.path.dirname(os.path.abspath(__file__)))
打印輸出當前文件路徑
import os print(os.path.abspath(__file__))
打印輸出當前文件上兩層文件目錄路徑
import os print(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
18、請寫出運行結果,并回答問題
tpl = (1, 2, 3, 4, 5) apl = (6, 7, 8, 9) print(tpl.__add__(apl))
問題:tpl 的值發生變化了嗎?
運行結果如下:
(1, 2, 3, 4, 5, 6, 7, 8, 9)
答:元組是不可變的,它是生成新的對象
19、請寫出運行結果,并回答問題
name = ('James', 'Wade', 'Kobe') team = ['A', 'B', 'C'] tpl = {name: team} print(tpl) apl = {team: name} print(apl)
問題:這段代碼能運行完畢嗎?為什么?它的運行結果是?
答:這段代碼不能完整運行,它會在 apl 處拋出異常,因為字典的鍵只能是不可變對象,而 list 是可變的,所以不能作為字典的鍵。運行結果是:
{('James', 'Wade', 'Kobe'): ['A', 'B', 'C']} TypeError
20、裝飾器
請寫出裝飾器代碼骨架
def log(func): def wrapper(*args, **kw): print('call %s():' % func.__name__) return func(*args, **kw) return wrapper
簡述裝飾器在 Python 中的作用:
在不改動原函數代碼的情況下,為其增加新的功能。
21、多進程 多線程
多進程更穩定還是多線程更穩定?為什么?
多進程更穩定,它們是獨立運行的,不會因為一個崩潰而影響其他進程。
多線程的致命缺點是什么?
因為所有線程共享進程的內存,所以任何一個線程掛掉都可能直接造成整個進程崩潰。
進程間通信有哪些方式?
共享變量、隊列、管道。
好了,本文就給大家介紹到這里,祝大家面試so easy!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。