您好,登錄后才能下訂單哦!
文 | 鄭林峰 財通證券大數據經理
交流微信 | datapipeline2018
財通證券股份有限公司是一家經中國證券監督管理委員會批準設立的綜合性證券公司,成立于1993年的浙江財政證券公司,現為浙江省政府直屬企業,主要經營證券經紀、證券投資咨詢、證券自營、證券承銷與保薦、融資融券、證券投資基金代銷、代銷金融產品等業務。
作為公司中不可或缺的一部分,財通證券的數據團隊管理著日增約為6000多萬 – 1億條的數據,為公司的不同層次、不同類型的服務提供著穩定可靠的數據信息。
在人工智能的新時代下,為實現批量化數據集成,財通團隊放棄老式集成工具,選擇DataPipeline的產品,用5分鐘就完成了以前需要50個小時的任務配置工作。除此之外,DataPipeline獨有的跳板機設置,減輕了數據團隊潛在的管理負擔。
中小型券商數據團隊的痛點
全國120家券商,約40家的中大型券商企業已經建立獨立的基礎數據部門,而對近80家中小型券商企業來說,數據團隊都是在成立中,或者是在二級部門的狀態。
對于中小型券商,一個很大的痛點就是數據集成的問題。這是由于數據組人力資源非常有限,而數據集成因為對性能和穩定性要求高,開發繁瑣,變化頻繁又無法外包。對于數據集成,大多數券商平臺使用的老版的ETL數據集成工具,由于采取單表級粒度,導致抽取任務的開發,調度管理及測試效率較低。而券商數據流的特點是任務基于清算狀態,當上游的生產系統完成清算后,數據任務啟動取數至中間庫,當取數任務完成后,再觸發下游系統消費數據。
對于企業級的券商平臺來說,初步的數據采集不需要做繁復清洗轉換工作,只需提供貼源數據給到下游合作商來加工和處理。
其次,目前的常用抽取工具不能對資源進行相對精細的控制。由于上游系統具有強勢的生產性質,券商系統對于數據采集的資源消耗要求很高。券商的預警機制基本在系統流量到30%以上開始預警。
數據使用端沒有驗證規則,沒有自己的冗余性機制,所有的壓力都在源端數據層。隨著管控的數據規模不斷增加,源端數據出現問題的風險也在提升,導致數據團隊填寫事件單已經成為家常便飯。
另外,對于金融企業來說,數據安全是重中之重,所以核心系統的數據都是通過網閘進行網絡隔離。使用老版數據集成工具的時候,由于老版數據集成工具的特性,導致數據團隊的整體服務都必須放在內部網絡,一旦任務失敗,團隊必須去到現場的內網機器進行操作,運維十分困難。
解決方案
我們(財通證券)選擇與實時數據管道技術上領先的DataPipeline進行合作,打破了傳統工具在ETL上的束縛。財通證券基于DataPipeline開放的底層平臺,開發了監控預警、數據校驗、個性化調度等功能,以產品化加開放API的組合拳,實現了符合證券行業應用場景的數據集成方案。
批量化的加速提取
在目前大數據時代,數據的加工流程已經發生了變化,從以前的單表采集、清洗轉化、落庫(ETL)轉向數據單純采集不進行轉化直接落庫。所有的轉化在數據落庫后通過大數據技術進行清洗轉化(EL)。
而目前市場上,更多得數據采集的粒度還是在單表級,并且需要進行可視化轉化清洗等操作,浪費了不必要的時間。
DataPipeline適應了時代的需求,采取批量化的采集方式,同時對同個系統的幾十幾百個表一并采集,大大提高了我們(財通證券)的數據采集效率。
對資源的監控
老版數據集成工具等抽取工具,在執行的時候會完全放開抽取進程的能力,會有很好的抽取速度,但是由于沒有辦法進行統一的任務管控,這會對上游系統的數據庫造成很大的壓力。
使用傳統的集成工具,我們最高能消費掉到系統生產備庫50%的性能,單庫每秒鐘的流量條數接近10萬,但這樣做就觸發了上游系統的預警,為保證生產系統的安全穩定,采集系統必須進行波峰限流。
DataPipeline的工具定義了采集條數和采集流量的雙重閾值,而且由于其任務是對于整個任務下的所有表的總值進行限定,粒度更加適合企業級統一采集工具的使用,保證了企業應用的安全性。
跳板機的實施
作為金融企業,數據安全是重中之重,所以核心系統的數據都是通過網閘進行網絡隔離,如何快速將數據從不同的網絡環境抽取數據,那么就需要通過跳板機模式進行處理。
DataPipeline通過跳板機的方式,讓跳板機承擔數據中轉服務,整體采集的控制端存放在非內網環境,確保出現問題可以在外部環境中進行直接管理和問題排查。
值得一提的是,DataPipeline是市場上唯一可以做到這一點的公司。
人工智能時代的考慮
券商以前追求的是高質量的可用數據(結構化數據),如可視化的股價、經濟數據等。在人工智能時代下,更多維度,數量更大的基礎數據(結構化或非結構化數據)顯得更加重要,所以需要采集的表的數量更多,數據也分布在更多的業務系統。各系統的數據庫類型也不一樣,所以也出現了對于異構數據庫抽取到某一個特定的數據庫這樣的需求。
業內更多使用的是消息中間件的方式去進行,而DataPipeline在上游數據源和下游數據庫之間建立中間件,使用通用的中間件架構完成非結構化和結構化數據的架構統一。
高效的服務,肉眼可見的成果
DataPipeline的研發團隊的工作期并不止于產品完成。交付產品后,DataPipeline團隊在短時間內對客戶的各種行業特性需求快速響應,本著客戶至上的原則,為財通提供了優質及時的服務。
三月份與貴公司(DataPipeline)談一次需求的優化,很快改版就出來了。基本上券商行業的一些特定需求都可以很好地滿足了。
這樣的效率帶來的高效結果也不會驚奇:僅僅是提取結構性數據一項,DataPipeline就“完爆”了前輩的老版數據集成工具。使用老版工具,幾百張表的抽取配置需要花費50個小時,而使用了批量化采集的DataPipeline基本可以在5分鐘內完成。
結語
由于金融行業具備的數據同步與集中性,ETL對性能和穩定性要求非常高。而ETL開發繁瑣,變化頻繁又無法外包,這就成為了所有券商的痛點。財通證券作為一家典型的券商公司,通過DataPipeline的幫助,更敏捷、更高效、更簡單地實現了復雜異構數據源到目的地的實時數據融合和數據管理等綜合服務,使中小型券商的痛點得到有效的解決,并且為新時代的到來做好了充分的準備。
—end—
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。