您好,登錄后才能下訂單哦!
前段時間微信里有個小程序“猜畫小歌”特別火,你可以在手機上畫簡筆畫讓機器識別,還可以和朋友一起比賽,看看誰是靈魂畫手。
實際上猜畫小歌并非中國首發,早在去年11月,谷歌就上線了一款叫“Quick,Draw!”的線上游戲,也就是“猜畫小歌”的網頁原版。這款游戲中,玩家需要在20秒內畫出要求的圖案,比如籃球或電視等物體的簡筆畫。
谷歌“Quick,Draw!”與“猜畫小歌”的區別主要是在于“Quick,Draw!”是用鼠標作畫,而“猜畫小歌”可以直接在屏幕上用手指作畫,如果你感興趣,可以點擊這個鏈接進入游戲:https://quickdraw.withgoogle.com/,感受一下用鼠標畫圖的難度,絕對比手指畫要艱難許多了。
Quick,Draw!游戲主頁
這個游戲非常火爆,吸引了許多玩家參與,大方的谷歌并沒有私吞這些網友智慧的結晶,谷歌開放了玩家在這個游戲過程中畫的數據集,這個數據集包含電視、籃球、短褲等在內的345個類別。全球有超過1500萬玩家貢獻了近五百萬張繪畫。
quick draw數據集包含的部分類別
Google將這個有趣的數據集公開給大眾,為所有開發人員,研究人員和藝術家提供了探索,學習和研究的機會。
我獲得這個有趣的數據集后,進行了一些分析,得到了一些有趣的結果。
游戲過程中要求玩家在20秒時間內完成作畫,在這么短的時間里作畫,實際上畫出來的東西基本上都是自己內心潛意識對這個物體的認知,我試圖通過圖像堆疊的方法,探索出不同地區國家對不同的物體進行描述時的共性與差異。
在堆疊過程中,不同國家不同畫畫主題對應的圖片數目是不一致的。我過濾了少于1000條的數據,如果一個國家地區某一主題的畫大于1000條,則從中隨機抽出1000條進行堆疊操作。得到的結果大致如下;
法國應該是對埃菲爾鐵塔最熟悉的國家了,我們用上面堆疊的圖片對比一下真實的埃菲爾鐵塔,可以看出,鐵塔的基本外形已經描繪出來了,而且鐵塔的底部還有個三角形空白呢,看來在大家的潛意識里,愛爾菲鐵塔就是一個三角形,下方空白的結構。
堆疊出來的圖像看起來還蠻有意思的,有種在數據中剝繭抽絲的感覺。不同的主題,堆疊起來的效果不一樣,根據主題復雜度的差異,堆疊出的圖像辨識度存在差異。
五角星這個類別顧名思義就是五個角,各國人民對五角星的認知應該都是統一的,因此畫出來的五角星大同小異。
冰淇淋在世界范圍內也廣泛存在,經典的冰淇淋結構應該就是下面是蛋皮,上面是冰淇淋機拉出來的冰淇淋,輪廓非常固定,而且結構簡單,不同的人畫起來基本上不會有太大的差別,但是有一些類別不同人畫起來就會存在較大的分歧。
老虎這個類別,結構非常復雜,不同的人對老虎的認知存在較大的差異,也許有人畫虎頭,上面也許還會有個大大的“王”字,另外一些人卻把整只老虎的外形都畫出來。堆疊起來特征就非常不明顯了。
除了老虎這種結構本來就很復雜的類別,有些類別因為太過于簡單,堆疊的時候也不容易看出特征,“河流”就是其中之一。
由于重力,巖石,海拔差異等原因,世界上很難找到一條筆直的河流,在人們的腦海里,河流通常都是彎曲的,因此不同的人作畫的時候,容易在不同的位置描繪河流,而且所描繪的河流的彎曲度,寬度也存在較大差別,這就造成了堆疊的“河流”圖片辨識度不高。
圖像堆疊以后,我驚喜地發現了一些有意思的事情,首先是人們描繪的圖像區域存在一定的偏好,也許是谷歌在收集涂鴉軌跡數據的時候以右上方作為原點,我觀察到的幾乎所有堆疊圖像,都是右邊與上方兩個方向的線條描繪得更多。
這種現象究竟是不是谷歌統計軌跡的方式造成,我沒有找到答案。但這種現象給我們堆疊圖片提供了遍歷。
雖然涂鴉是非常簡單的線條來描繪結構,但在描繪的過程中,不同的人會對不同的方位進行涂鴉,這種現象就像是大學《工程制圖》里的三視圖一樣。
經典的三視圖
椅子是生活中常見的東西,對不同的角度進行涂鴉有著不一樣的結構,下面列舉了4個例子。
可以看出澳大利亞和阿聯酋都是朝向左邊,中國臺灣則朝向右邊,南非畫的椅子中規中矩,兩邊都不偏向,朝中間!
除了椅子等物體的朝向不一致,我還發現在涂鴉的過程中,人們會對物體的關鍵特征進行重點描繪。比如在畫螃蟹的時候,兩個大鉗子就是非常明顯的特征,幾乎所有的國家都對螃蟹大鉗子進行了加粗處理。
螃蟹這種大鉗子特征應該屬于比較粗略的區分特征,在畫這種物體的時候,應該重點對明顯的特征進行涂鴉,系統就可以很快識別啦!
紋理信息對于識別物體而言,是非常重要的。quick draw數據集里包含了許多的球類,比如:籃球、足球,棒球等。這些球的表面都存在一定的線條,讓人一看就知道是籃球還是棒球。
棒球
這三種球類在世界范圍內都是非常受歡迎的運動,三者的外形都是球形
籃球的紋理類似豎著切西瓜一道一道的紋理,幾乎所有的籃球上的紋路都是這樣。
而足球的紋理則是典型的五邊形與六邊形拼接,一個足球總共由20個正六邊形和12個正五邊形。
足球的結構和C60的結構有著驚人的相似度,C60是一種碳原子簇,它由60個碳原子構成像足球一樣的32面體,包括20個六邊形,12個五邊形。這60個C原子在空間進行排列時,形成一個化學鍵最穩定的空間排列位置,恰好與足球表面格的排列一致。
相比籃球與足球的復雜紋理,棒球的結構就要簡單得多。
棒球內部通常有硬核,球心的外皮通常是牛皮制作的,工人用帶孔的“8”字型模具按壓皮革,得到
一個“皮衣”,在皮衣的內側印上產品編號和出廠日期,之后將皮衣內側涂上膠水。接下來就是制作棒球的最后一步。
工人將兩片皮革包裹在球心上粘好并固定住,開始縫球!壓制皮革時留下的孔就是在這時起作用了呢!每個棒球要人工縫制108針!是不是很厲害!
縫好球之后,只需將球通過壓力機,再印上商標,一個超帥氣的棒球就可以出廠了呢!
在對這三種表面紋理復雜度不一致的球類進行涂鴉的時候,紋理辨識度就很容易產生差別。我在數據集里找了三個國家“菲律賓”、“韓國”、“美國”來觀察這三個國家在對這三種球類進行涂鴉時的規律
可以看到,三種球類中,識別度從高到低的排序是“棒球”>”籃球”>”足球”,這個結果跟上面對三種球類紋理復雜度的分析結果基本吻合。
看來要想在quick draw游戲中盡可能被快速識別,紋理特征也是非常關鍵的!
quick draw數據集還有很多有意思的地方,之后有時間再慢慢更新此文。
本文發表在李思原博客“機器在學習”
原文鏈接:http://www.siyuanblog.com/?p=1829
歡迎掃碼關注我的微信公眾號:聚數為塔
系列博文也有發在華為云社區:https://bbs.huaweicloud.com/community/usersnew/id_1542351719401316
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。