您好,登錄后才能下訂單哦!
筆者小白在收集印刷體漢字的深度學習訓練集的時候,一開始就遇到的了一個十分棘手的問題,就是如何獲取神經網絡的訓練集數據。通過上網搜素,筆者沒有找到可用的現成的可下載的漢字的訓練集,于是筆者采用了代碼自建漢字的訓練集數據。
這里采用的是python編寫程序,需要import 的python庫請提前安裝。
那么,首先如何用python輸出漢字字庫的文字?
筆者查到在計算機中漢字編碼范圍是0x4E00到0x9FA5,利用unichr()可以將十六進制的編碼轉成人類可讀的字。
這里擴展一下在python庫中什么是unichr(),以及什么是chr()和ord()。
chr( )函數用一個范圍在range(256)內的(就是0~255)整數作參數,返回一個對應的字符。
unichr( )跟它一樣,只不過返回的是Unicode字符,這個從Python 2.0才加入的unichr( )的參數范圍依賴于你的Python是如何被編譯的。
如果是配置為USC2的Unicode,那么它的允許范圍就是range(65536)或0x0000-0xFFFF;如果配置為UCS4,那么這個值應該是range(1114112)或0x000000-0x110000。
如果提供的參數不在允許的范圍內,則會報一個ValueError的異常。
ord( )函數是chr( )函數(對于8位的ASCII字符串)或unichr( )函數(對于Unicode對象)的配對函數,它以一個字符(長度為1的字符串)作為參數,返回對應的ASCII數值,或者Unicode數值,如果所給的Unicode字符超出了你的Python定義范圍,則會引發一個TypeError的異常。
接下來就是把unicode編碼的字寫入文件呢,如果直接用open()的話,會提示UnicodeEncodeError: ‘ascii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128)
這里就是涉及到python讀寫文件時候的兩種方式了,一種是open(),還一種是codecs.open( )。
對于open()這個python的內置函數來說, 打開文件的方式一般為:
f=open(file_name,access_mode = 'r',buffering = -1)。
file_name就是文件的路徑加文件名字,不加路徑則文件會存放在python程序的路徑下,
access_mode就是操作文件的模式,主要有r,w,rb,wb等,細節網上一大堆,buffering = -1是用于指示訪問文件所采用的緩存方式。0表示不緩存;1表示只緩存一行,n代表緩存n行。如果不提供或為負數,則代表使用系統默認的緩存機制。
>>> fr = open('test1.txt','wb') >>> line1 = "我是誰" >>> fr.write(line1)
打開以后就是寫和讀的操作。但是用open方法打開會有一些問題。open打開文件只能寫入str類型,不管字符串是什么編碼方式。所以對于寫入文件的數據的編碼不統一的時候,需要用到codecs.open()。
這種方法可以指定一個編碼打開文件,使用這個方法打開的文件讀取返回的將是unicode。
寫入時,如果參數 是unicode,則使用open()時指定的編碼進行編碼后寫入;如果是str,則先根據源代碼文件聲明的字符編碼,解碼成unicode后再進行前述 操作。
相對內置的open()來說,這個方法比較不容易在編碼上出現問題。
>>> import codecs >>> line2 = u'我是誰' >>> fw = codecs.open('test1.txt','wb','utf-8') >>> fw.write(line2)
這里是將漢字字庫的文字寫出到文本文件中,代碼如下:
import codecs start,end = (0x4E00, 0x9FA5) #漢字編碼的范圍 with codecs.open("chinese.txt", "wb", encoding="utf-8") as f: for codepoint in range(int(start),int(end)): f.write(unichr(codepoint)) #寫出漢字
在同目錄文件下,生成漢字字庫的chinese.txt文件:
接下來就是把漢字字庫的字一個個保存成圖片,這里需要pip install pygame的庫。
pygame可以將文字渲染到圖片上保存。
代碼如下:
#encoding: utf-8 import os import pygame chinese_dir = 'chinese' if not os.path.exists(chinese_dir): os.mkdir(chinese_dir) pygame.init() start,end = (0x4E00, 0x9FA5) # 漢字編碼范圍 for codepoint in range(int(start), int(end)): word = unichr(codepoint) font = pygame.font.Font("msyh.ttc", 64) # 當前目錄下要有微軟雅黑的字體文件msyh.ttc,或者去c:\Windows\Fonts目錄下找 # 64是生成漢字的字體大小 rtext = font.render(word, True, (0, 0, 0), (255, 255, 255)) pygame.image.save(rtext, os.path.join(chinese_dir, word + ".png"))
這里是在chinese文件夾里面生成的文字圖片,字體是黑體,然后再在個基礎上可以繼續自制漢字識別的訓練集了。
以上這篇對Python生成漢字字庫文字,以及轉換為文字圖片的實例詳解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。