核心摘要:
狹義來看,數據中臺是一套實現數據資產化和服務復用的工具;廣義來看,數據中臺是一套運用數據推動企業數字化轉型升級的機制和方法論。數據中臺始于業務數據的沉淀積累,用于數據的收集、整合、分析及應用,循環往復,形成生態閉環。
2021年數據中臺市場規模達到96.9億元。在供給側,行業的生態化合作趨勢明顯;在需求側,企業對數據中臺的關注點從中臺本身轉向了最終的數據變現能力。行業集中度和成熟度持續上升,整體規模穩步增長,增速趨于平穩,預計將在2024年達到187.4億元。
當前數據中臺的行業集中度仍保持較低水平,行業的活躍參與者大致分為平臺生態廠商、解決方案廠商和獨立中臺廠商三類,行業格局由競爭轉向競合,以協同生態為核心,集眾所長,將成熟的技術方案與行業服務經驗結合,協同拓展應用解決方案的廣度和深度,深耕于金融、泛零售、政務、制造、工業等多行業應用場景。
云原生是當下最為確定的技術趨勢,存算分離、微服務、ServerLess等核心技術要素驅動數據中臺走向云原生。數智融合理念將AI算法模型植入數據治理,高質量數據反哺AI開發能力,讓數據和AI開發高效互通。泛中臺化趨勢明顯,業務場景需求的解決方案/產品趨于“中臺化”,以數據中臺為基礎的中臺體系不斷豐富。
定義
數據中臺是一種數字化綜合解決方案。數據中臺采集、計算、存儲和處理海量數據,保證數據的標準統一和口徑一致,建立全域級、可復用的數據存儲能力中心和數據資產中心,組件化服務模塊,提高數據共享和復用能力,靈活高效地解決前臺的個性化需求。狹義來看,數據中臺是一套實現數據資產化和服務復用的工具;廣義來看,數據中臺是一套運用數據推動企業數字化轉型升級的機制和方法論。相較數據工廠時代,數據中臺立于業務數據的積累沉淀,破于數據收集、整合、分析及應用的生態閉環。數據中臺始于業務,用于業務,循環往復的理念與數據價值時代下數據資產價值最大化的目標相契合。
驅動因素:宏觀層
數據量規模快速擴張,數字化進程加快,技術更新迭代
新冠肺炎疫情加速推動了從個體、企業到政府全方位的社會數字化轉型浪潮。企業方面,疫情的出現為企業數字化轉型按下了“加速鍵”,在線辦公、在線交易等線上化運營方式為企業在特殊時期保持正常運轉提供了支撐。政府方面,政府的數字化應急能力和在線政務服務能力在疫情下不斷“淬煉”,在線服務指數由全球第34位躍升至第9位,邁入全球領先行列。據Gartner預測,2025 年全球將有309億設備接入物聯網。物聯網設備產生海量數據,對這些設備的運營、監控以及安全保障,離不開大數據技術的支撐,反過來也推動了大數據技術的進步。云計算以及云計算環境下大數據技術的成熟,使構建一套大數據系統變為低門檻、快速啟動的項目,且隨著業務增長進行無縫的技術增長,只需為實際使用的計算和存儲資源付費,大幅降低了使用門檻。
驅動因素:行業層
大數據核心技術和產品受關注程度高,產業發展再升級
大數據技術和應用成為國家基礎性戰略支撐,是打造數字經濟新優勢、加快數字社會建設步伐、提高數字政府建設水平的重要力量,因此大數據核心技術創新和產品升級受關注程度高,產業發展具備充足的空間和潛力。隨著5G、AI、物聯網等技術的普及應用,數據應用場景被釋放,數據源不斷豐富,數據量快速攀升。云原生技術使企業組織能在公共、私有和混合云等現代動態環境中構建和運行可擴展的應用程序,是繼云計算之后,數據基礎設施領域實現新增長的重要拐點。在基礎軟件方面,數據中臺、數據治理、數據安全等產品引領細分市場發展。在應用軟件方面,BI、可視化、圖像分析等產品也備受關注。從企業和行業應用來看,企業更加注重運用數據技術向精細化運營、信息化決策演進。行業應用聚焦于軟件和信息技術服務、互聯網等領域。
價值
核心價值:提升數據治理,改造業務流程,深化數據應用
數據中臺致力于解決原有數據關系及SOA架構解決企業“數據煙囪”問題,打通數據孤島,通過完善數據標準體系、強化數據質量管控、統一管理元數據等方式加強數據治理,提升數據可用性,實現數據資產化。數據中臺在改造企業業務流程,打通數據壁壘的同時,也打通了企業部門間和事業群之間的業務壁壘,消除“部門墻”產生的沖突,極大提升了企業組織靈活性。數據中臺的設計定位是基于企業的頂層戰略,集中體現了企業的頂層框架和業務邏輯。數據中臺對企業全域數據資產進行開發和應用,實現了統一可比可算,讓數據具備了敏捷服務能力,滿足了企業各層級對數據服務能力的智能和快速調用,讓數據價值最大化賦能業務決策。
市場規模
行業增速有所放緩,市場規模穩步增長
我國數字經濟蓬勃發展,企業數字化轉型步伐不斷加快,數據技術加速創新融合應用。2019年是數據中臺元年,行業快速完成了萌芽期和成長期的積累,正在積極向成熟期過渡。從供給側看,生態化合作趨勢明顯,一方面云廠商在各垂直領域加速布局合作生態,配合生態伙伴的行業積淀和服務協同,使得個性化部署能力和實施效率顯著提升;另一方面,部分獨立廠商融合云廠商的底層平臺能力,結合自身的技術創新和專項優勢,發布多樣化的數據中臺產品。在需求側,企業對數據中臺的關注點已從中臺本身轉向了最終的數據變現能力,對中臺的理解不斷加深,需求也更加明確。此外,在疫情影響下,企業的價格敏感度上升,驅動廠商積極探索業務模式創新和服務升級。數據中臺行業的集中度和成熟度持續上升,整體規模穩步增長,增速趨于平穩。
產業圖譜
行業千帆競發,廠商百花齊放,市場格局初顯
近些年,在大數據、云原生、人工智能等技術發展和企業數字化轉型加速的雙重驅動下,數據中臺在多場景快速落地。從廠商類型來看,平臺生態廠商、解決方案廠商、獨立中臺廠商以及自研廠商的邊界開始模糊,數智服務的生態協同明顯。從市場格局來看,云服務廠商依托完備的服務體系和強生態能力,輸出方法論、技術及工具,建立行業服務體系;產品廠商憑借創新技術能力和垂直行業深入的業務認知,取得行業積累,提升品牌競爭力。
行業格局
從競爭到競合,破壁搭橋提升數智服務,生態協同正當其時
廠商發展邏輯正從競爭轉向競合,以協同生態為核心,集眾所長,合力拓展協同應用解決方案的廣度和深度。平臺生態廠商擁有內部率先落地中臺戰略,之后對外提供服務的先發優勢,為行業發展輸出方法論、技術和工具體系,商業模式以“提供云基礎服務,生態伙伴實施交付”為主。解決方案廠商積累了豐富的垂直行業服務經驗和客戶服務基礎,可快速準確洞悉企業業務流程和痛點需求,但項目實施交付一般需要外部提供數據能力支持。獨立中臺廠商核心技術團隊普遍來自行業頭部廠商,技術背景扎實,行業經驗過硬,但品牌影響力相比平臺生態廠商較弱。
行業挑戰
產品化和項目制之間的平衡問題
在投融資領域,SaaS理念被眾多投資人所青睞。是否云上部署,是否訂閱且高續約,是否較少二開,是判斷SaaS屬性的重要指標。當前,中臺以服務中大型客戶為主。客戶的大數據量及對數據安全的特殊要求,導致較少采用全公有云的部署模式,大多仍采用類項目制(含一次性和私有訂閱)的形式。并且,中臺尤其是業務中臺部分,需要對行業和客戶有較深理解,在指標體系搭建、數據建模等環節,常需甲乙方深度配合,如果專心做通用產品,則在投標等環節并不占優勢。不管是從業者,還是投資人,都要深入思考:如何在產品和商業模式上下功夫,以尋求降低邊際成本和滿足客戶定制需求的平衡。低零代碼的技術理念,大核心研發+多個小行業交付的組織架構,積極發展生態合作伙伴,部分開源打造生態等,都是可供參考的選項。
需求診斷
企業搭建數據中臺應當按己所需,量力而為
盡管隨著技術進步,中臺實施難度逐漸降低,但仍然不是所有企業都適合中臺建設。中臺匯聚、打通的特點,要求企業已經或者在未來較短時間內會有大量的數據積累和應用。如果企業體量不大,或者企業體量雖大但業務單數較少,在數據需求出現時,一對一地解決,可能性價比更高。中臺復用的特點,要求企業業務既不是完全一成不變的,也不是多業務線毫無關聯的,如果企業業務非常穩定幾乎無變化,則中臺建設的必要性不足。中臺為整體解決方案的特點,要求企業有相應的配套機制,包括企業戰略、組織架構等,如企業沒有專門的數據部門僅靠業務部門,則企業數據建設容易陷入“公地悲劇”:每個業務部門都想使用數據,但誰都不愿貢獻、建設、治理數據。總之,中臺是一個基礎設施,其以底層的穩態保障上層的敏態,以公共的建設保障各業務線的使用,以當前的重投入保障未來的高產出。凡企業不是此類規劃的,均不完全適合,可以用中臺里的某個模塊如數倉、數據湖或主數據治理等先行解決當前問題。
整體分析
金字塔型分析,由“虛”入“實”,從宏觀到微觀
中臺項目實施難點,在于企業數字化過程中,虛實結合不到位。傳統咨詢常采用Top-Down打法,但往往是Top(規劃)有了,Down(落地)困難,常被稱為“缺腿和腳”。純技術出身的中臺廠商則需補充Top-Down 的方法論。目前,大多中臺廠商在為企業提供服務時,多采用從規劃到組織再到工具的自上而下打法,這其中要么自建咨詢團隊,要么生態合作完成。企業首先要明確自己的使命、愿景(To-Be)和當前狀況(As-Is),然后確定企業接下來一段時間的北極星指標,然后將該指標拆分為子指標,然后確定數據管理和應用體系,最后才是中臺具體路線。一開始這些看上去較“虛”的動作,其實是中臺能堅定、持續走下去必不可少的要素。這種方式,其實可以看成是“金字塔原理”以及“OKR”在數字化轉型中的具體應用。所以,企業中臺建設不僅是技術問題,更是管理問題,是企業的一把手工程。
核心方法論
OneData+OneService+OneID
頭部的平臺生態廠商在內部落地中臺戰略,獲得檢驗后對外輸出成熟的中臺建設核心方法論:OneData+OneService+OneID。OneData的本質是構建從算法定義、數據研發到數據服務的統一指標和算法,數據采集、匯聚、清洗、加工、調動一次完成,避免因不同的業務場景造成不同部門對數據的重復建設,讓數據成為可復用、可深挖價值的資產,而非拖垮業務推進的隱性成本。OneService的本質是數據即服務。傳統數倉從不同的系統調用數據時受數據庫權限限制,需要開發人員定制不同的訪問接口,出錯時還難以追溯影響到哪些應用和報表。數據中臺通過平臺化的工具/接口,一方面為應用開發屏蔽了底層數據存儲,提供數據查詢統一接口,另一方面提高了數據應用的管理效率,建立了從報表到應用的清晰鏈路,提升數據開發的友好性。
廠商選型
人、活兒、事兒三方面考量
企業在中臺選型時,應從人、活兒、事兒三方面進行考量。“人”是指:企業應該考慮中臺廠商的團隊背景,如是否有大數據背景,是否有行業背景。“活兒”是指:目前中臺廠商的產品中,哪些是開源的,哪些是自研的;如果是開源的,是否是主流且代表未來趨勢的技術路線;如果是自研的,核心優勢在哪,與開源產品的語法、體驗等是否一致,會不會為自己帶來相應IT人才的缺乏;各個模塊之間是松耦合還是緊耦合;產品的使用門檻是否較低,體驗是否良好。“事兒”是指:中臺廠商在歷史上,是否有本行業的成功案例,取得了哪些顯著成果;中臺廠商與本企業的其他系統(如ERP、CRM等)是否有成功的對接先例,從而在實施中可以提高效率并降低風險。
底座技術選型
先進性和適應性應綜合考慮
中臺技術,即廣義的大數據技術(中臺≈數字化咨詢+大數據技術+數據治理與管理+數據運營)。由于大量行業客戶,并不能自己玩轉大數據,所以一般需要“端到端”的產品或服務。供應商提供端到端服務,一般有幾種路徑:(1)公有云廠商提供從IaaS到SaaS的全套的云、數、智服務,一般云資源為自家提供,而數和智既可以選擇云廠商自有組件,也可以選擇開源組件。(2)部分廠商如Cloudera對不同的大數據組件進行組合,形成CDH和CDP套件。(3)解決方案廠商,基于客戶需求和自身理解,利用開源技術,進行自由組合和二次開發。(4)獨立中臺廠商,基于開源+自研的方式,打造全鏈條產品和服務。(5)一些新型HATP廠商,通過對流數據的進一步融合,以更輕巧的方式滿足中小企業的中臺需求。
在技術組件選擇時,一般遵循以下原則:(1)確有明顯優勢及取代趨勢時,選擇有優勢的(如Flink相對于Storm)。(2)不同技術各有利弊時,根據自身業務、歷史架構、供應商擅長綜合選擇。(3)供應商有深度自研的,除體驗外,還應考慮后期服務的持續性以及自身IT人才的供給。
數據治理
元數據管理&主數據管理
元數據管理用于確保全局指標的業務口徑一致,主要包含數據字典(描述數據的結構信息)、數據血緣(用于影響分析和故障溯源)以及數據特征(描述數據的屬性信息)。常用產品分為:1)開源產品Metacat(擅長管理數據字典)和Atlas(擅長管理數據血緣);2)商業產品ClouderaNavigator。元數據中心對外統一提供API訪問接口,數據傳輸、數據地圖、數據服務等其他的子系統都可以通過API接口獲取元數據。
主數據管理用于提供完整、一致、準確、相應的主數據來源,以支撐跨部門、跨系統數據融合應用,四大關鍵功能為生命周期管理(編寫主數據間的層次、關系及分組)、質量管理(建立主數據質量基線和評估改進程度)、協調功能(主數據管理系統與業務系統集成)以及分析功能。主要解決方案廠商包括IBM、Informatica、Stibo Systems、SAP等國外大廠,產品成熟,但產品靈活性和擴展性不足,同時國內廠商如用友、浪潮等也在此領域崛起,不斷靈活創新,更貼近企業需求。
數據資產管理
數據模型管理
搭建數據中臺的本質是構建企業公共數據層,把原先分散、煙囪式的數倉合并成可共享、可復用的數據中臺,具體實施路徑可概括為:1)接管ODS層,控制數據源頭。ODS是業務數據進入數據中臺的第一站,是所有數據加工的源頭,應從業務系統的源數據庫權限入手;2)劃分主題域和拆分業務維度,構建總線矩陣。主題域是業務過程的抽象集合,劃分時盡量涵蓋所有業務需求,保持穩定性和擴展性;3)構建一致性維度。構建全局一致性的維表,確保維表只存一份。維度屬性分為兩種情況:公共維度屬性與特有維度屬性拆成兩個維表,產出時間相差較大的維度屬性拆分成單獨的維表;4)整合事實表。事實表整合的核心是統計粒度必須保持一致,不同統計粒度的數據不能出現在同一個事實表中;5)模型設計完成后,進入模型開發。數據全生命周期管理,ODS和DWD盡可能保留所有歷史數據,DWS/ADS/DM需設置生命周期,可保留7-30天不等;6)應用遷移。進行數據比對,確保數據一致。
數據服務
數據和應用之間的“橋梁”
數據服務是數據中臺的能力出口,是數據應用的重要支撐。企業通過中臺能力封裝關鍵數據實體,將數據采集、數據傳輸、數據存儲、數據處理、數據交換等數據的各種形態轉化為可高效復用的軟件服務。數據中臺提供的數據服務可大致分為三類:1)主題式數據服務。基于元數據規范定義和建模,構建主題邏輯表,屏蔽復雜物理表,提供業務視角下的查詢;2)統一且多樣化數據服務。一站式提供一般查詢、OLAP 分析、在線接口服務等查詢和應用服務,便于數據跟蹤管理;3)跨源數據服務。統一數據接入層,屏蔽多種異構數據源的讀寫差異,減少數據訪問和應用成本。數據服務通過平臺化、配置化的方式,快速生成API服務,減少定制化開發對不同工種的依賴,同時屏蔽底層數據的技術細節,讓數據消費者無需關心數據的源頭問題,實現“數據即服務”。從實施路徑來看,構建數據服務模塊應具備以下五大核心能力,才能擔起數據與應用之間的“橋梁”角色:
行業場景
金融行業:從數據驅動到運營優化
金融行業走在我國數字化轉型前列,信息化建設起步早、投入大,因此行業的信息化水平和數據的標準化程度較高,針對金融行業的數字化服務生態比較健全。但是,傳統的數字化解決方案也造成金融機構普遍擁有多個信息部門和數據中心,隨著業務多元發展和海量業務數據積累,大量的系統、功能和應用被反復構建。數據資源、計算資源和人力資源都存在巨大浪費,信息孤島現象嚴重,內外部數據難以統籌規劃,數據能力無法應對高并發、強一致、橫向擴展的業務場景。
數據化轉型領先的金融機構已經開始搭建數據中臺,并產生很多優秀案例。數據中臺采集和整合金融機構內多個數據庫數據,建立跨越式數據模型,打破數據壁壘,統一加工、處理、輸出標準數據,建立數據資產,減少業務數據重復建設,徹底改變金融行業數據交付模式,形成專業的用戶畫像,精準營銷,輔助運營決策,提升客戶運營效率。
泛零售行業:從統計分析到決策支撐
泛零售行業從以商家運營為主導的“舊”零售時代,推演至今日的以用戶為中心,數據驅動、體驗為王、口碑傳播、迭代思維的零售4.0時代,零售企業為了解全域運營數據、進行場景細分和精細化運營、緊隨消費需求和消費鏈路的變化趨勢,內部搭建了各類業務系統,基本滿足日常統計分析。但是,割裂的業務系統也形成了大量碎片化的數據,無法做到跨域、跨渠道的統一查詢和分析。此外,數據口徑不一致使得數據使用者對數據解讀無法形成統一理解,數據體系不完善導致無法對多維數據進行閉環分析,數據指導和輔助運營的能力不能充分發揮。
數據中臺打通泛零售企業內部各系統數據,標準化數據模型和研發標準,實現從數據采集、匯聚、清洗、調度到數據質量管理的全流程工具化和平臺化,幫助零售企業打通采購系統、業務系統、運營系統和銷售系統的數據,進行數字化的供應鏈管理;運用數字媒介開展業務和觸點布局,跨業務域、跨渠道、跨產品、跨區域的綜合分析,精細化運營;通過埋點、實時數據,線上線下異構數據采集,全量及全維度的捕獲用戶行為,提供決策支撐,優化用戶體驗。
政務行業:從決策支撐到數據驅動
政務數字化是數字政府建設的重要目標,隨著數據、算法、服務不斷創新和迭代,行業正從政務電子化、政府上網和政務服務一體化的“互聯網+政務服務”階段,向基于大數據的“數據化、平臺化”階段推進,初步形成統一的云平臺和公共數據服務平臺,政務服務能力顯著改善。但隨著國內經濟持續健康發展和社會全面進步,各界對政務服務也提出了更高的要求。如何實現政府數據資源跨層級、跨地域、跨系統、跨部門、跨業務的協同管理和服務,如何實現“政府內部協作”、“政府企業協同”、“政府服務公眾”的數據資源良性循環,如何提升政務協同過程中協同辦公效率都成為新的挑戰。
數據中臺提供統一的數據采、建、管、用能力,能實現政務領域數據的統一管理,構建數據資源的應用創新模式,建設重心從技術轉向運營管理,通過數據流帶動組織和業務流程重組,提升政府服務協同能力。通過數據資源的標準化和統一輸出,提供政務數據精準化供給和智能化服務,支撐政府部門精準決策。
工業行業:萬物互聯時代大有開發空間
面對激烈的市場競爭環境和如火如荼的產業數字化進程,工業企業需要通過縮短交付周期、產品多樣化、產品及服務創新來提升競爭力,數字化轉型為工業企業大規模、多樣化、全鏈路的運營生產和快速創新提供了可能。企業陸續構建了ERP、SCM、SRM、WMS、PLM、MES等工業管理系統,支撐特定領域的業務應用,結果數據孤島隨之而來,收效甚微。萬物互聯時代到來,工業設備普遍具備智能互聯屬性,圍繞設備、系統、人形成了巨量數據。此時,企業的競爭本質演變為數據支撐業務敏捷性,以應對市場的飛速變化。企業前臺對數據應用的快速迭代創新、快速響應用戶需求與后臺系統臃腫遲滯之間的矛盾成為亟待解決的問題。
工業企業不具備互聯網公司天然的信息化基因,并且產品研產供銷服流程復雜,業務對象與功能解耦難度大,沉淀深厚無法快速推倒重建,加上工控軟件數據開放度不足,專業程度高,因此,工業領域的數據中臺推進仍有較大的開發空間。
趨勢一:云原生
技術與業務共同驅動數據中臺走向云原生
云原生是當下最為確定的技術趨勢,主要由Docker+Kubernetes以及Spring Cloud等主流技術共同驅動。但當下,很多所謂“云原生”,仍是對傳統單體架構的改造,并不能真正實現資源的完全彈性擴展。存算分離,各自動態擴縮容,將有助于平衡成本與效率,是大數據低成本落地的重要保障,也將是真正意義云原生的顯著特征。未來,數據中臺的數據存儲量劇增,且作業高吞吐高并發,對存算分離的要求明顯高于其他應用領域,數據中臺中的重要組件,如MPP及智能湖倉等,都將遵循存算分離架構。此外,企業客戶對數據安全的關注度不斷提升,對數據安全、合規數據合作技術等需求增強,云原生天然具備的對象體系、容器化編排、CI/CD(持續集成持續交付)、跨云多域數據治理等技術屬性,都驅動數據中臺走向云原生。
趨勢二:數智融合
數據和智能相互作用
所謂數智融合,即構筑數據治理和AI開發的統一底座,讓數據和人工智能相互作用。一方面, Datafor AI :通過對元數據統一管理,解決傳統數據分析與AI模型之間的“數據搬家”問題,打通數據分析與AI模型引擎,實現基于一份數據多模分析,提升數據驅動決策的準確性和可信性,讓數據工程師靈活進行模型和特征訓練,實現數據與AI開發高效無縫互通。另一方面,通過AI forData :將人工智能算法模型的能力植入到數據治理,通過機器學習自動發現數據管理的規則,在數據模型管理、元數據管理、主數據管理、數據安全等多場景中廣泛應用。因此,人工智能對于提升數據治理的智能化水平具有關鍵作用,也是降低數據治理門檻的重要突破方向。
趨勢三:泛中臺化
以數據中臺為基礎的中臺產品體系多點開花
5G時代的到來,人工智能、物聯網等創新技術不斷發展。隨著多設備接入、多系統數據融合互聯互通,形成新的數據孤島,對企業的智能用數發起新的挑戰。值此時刻,數據中臺的理念體系逐漸完善,相關產品、規范以及標準也趨向統一,落地經驗也得到積累,大數據項目紛紛與數據中臺結合,數據中臺開始從概念熱點向項目起點轉變。隨著企業對中臺認知的增強,業務場景需求的解決方案/產品也趨于“中臺化”:IoT中臺、算法中臺、研發中臺、組織中臺、AI中臺等中臺產品體系不斷豐富。以IoT中臺為例,是相對數據中臺層次更上的抽象和高級,包含了采集平臺、通信中臺和數據中臺的全部特性,支持除數據分析、處理、交易等抽象業務服務外的采集和通信能力,相對數據中臺更加貼合企業業務場景,為未來智慧城市建設提供更加深入和精細化的基礎能力。