到底這個月的業績是多少?「數據治理」是數據應用的基礎 Why Data Governance matters?
我們越來越知道數據的重要性,數據是AI的油田、是經營會員的基礎,零售業也越來越知道要掌握自己的數據,從原本的CRM,都進階到要有自己的CDP。
但今天先別管CDP了,你有聽過GIGO嗎?
「GIGO」(Garbage In, Garbage Out),你丟進去垃圾、出來就是垃圾。在數據的世界沒有再生資源這件事,數據處理得好是資產,處理不好就是垃圾。拿垃圾資料做數據分析,分析出來的結果還是垃圾。
公司買了厲害的CDP,都是為了從數據中練出黃金,千萬不要在高檔的CDP中,放了滿滿的數據垃圾。
想要透過數據應用來創造價值,數據治理就是一切數據應用的根本,但卻也是最常被忽略的一件事。
看不清楚的會員數
品牌知道會員經營的重要,但品牌卻很常搞不清楚自己有多少會員。大多數的累積會員數,都是一種自High的虛華指標。
為什麼品牌會弄不清楚自己的會員數?因為有太多的會員是沒有意義的。也就是「會員資料是髒的」,會員資料是需要清洗的。
我們常常會遇到一些品牌,號稱有400萬會員,可以一經過資料清洗(Data Cleansing),最後留下可用的會員數,可能最後只剩下100多萬。
什麼是會員資料清洗?為什麼會員資料會越洗越少呢?
- 確保「唯一性」:
過去以門市經營為主的品牌,常常會留下很多的重複會員資料。
作為消費者,我們也常常忘記是否加過某個品牌的會員,櫃姐為了方便,通常也就會乾脆地請你「再加入一次會員」。
我們常常在協助品牌清理會員資料時,看到會員資料裡面,一個手機號碼有三個會員帳號的這種資料重複的狀況,而且,每一個帳號下面,可能最近都還有交易紀錄。這種原始的會員資料,就需要「清洗」,把重複的會員做資料整併。 - 確保「有效性」:
有些會員資料是「無效的」。
像是很多會員的原始資料,只留下了會員姓名、編號,但沒有手機號碼、email、地址,也就是「完全沒有可溝通的資料」。這種會員資料,通常我們會挑出來,備存在其他的資料庫裡面。
一般來說,沒有任何可溝通資料,也沒有任何交易資料的會員,基本上就跟不存在一樣,存在的意義就僅是讓會員數可以加一。 - 確保「可驗證性」:
有些會員資料雖然有手機號碼,但他卻不是10碼,例如是「12345678」,或是「0900000000」,也就是一看就很明確這種欄位的資料是錯誤的。
Email也是可被驗證的資料欄位,例如沒有@、@後面只有一個英文沒有「.」,都是錯誤的欄位資料,理論上都要挑出來把欄位清掉。
有些會員資料的生日也非常有趣,他可能像是「1900/08/20」,也就是這個會員已經超過100歲了,通常就是在填會員資料時亂填或櫃姐是亂Key的。尤其當這些會員近期還有交易紀錄的時候,如果真的不是當時亂填亂打的,那就要去拜拜了。 - 確保「相依性」:
有一些資料欄位之間,是有「關聯邏輯的」。
例如如果會員性別欄位是「男性」,他的身分證字號欄位的資料,開頭應該要是1。如果地址欄位填寫的是台北市,那郵遞區號就要是1開頭。
會員現在的點數與等級資料,理論上也可以透過交易資料回溯的。例如某個會員已經是第三等級的VIP會員,可是近一年卻沒有任何交易資料,如果他不是公司內有「特別關係」的會員,那可能就是哪裡有問題了。 - 避免「資料誤差」:
在洗完會員資料之後,我們會開始做第一次快速的會員資料分析。通常我們會把所有會員的年度累積貢獻加總,依據每個會員的累積貢獻做排序。
通常前10大的累積貢獻會員裡面,會藏有很多的驚喜。例如某個品牌可能平均會員的年度累積貢獻約10,000元,但前幾大可能都超過1,000,000元,而且第一大貢獻度的會員,可能是高達一年花費3,000,000元。
通常老闆會很意外,哪裡來這麼熱情的品牌粉絲,很想好好的認識她謝謝他,一聯絡才發現,接電話的這個會員,可能是某個分店的櫃姐。
這類的「超超超級大戶」,很多不意外都是特定櫃姐自己養的帳號。而真正的超級大戶,是藏在櫃姐的口袋名單裡,而品牌自己的會員資料庫,反而永遠看不到。
但這類並非由正常的會員消費行為所累積下來的數據,通常會造成整個資料分析的偏差,也是要挑出來清洗。
算不清楚的業績數字
零售業的業績數字,是老闆最最最在乎,但也常常是最最最不準的數字。
- 時間差:
以往的零售業,以實體門市為主,業績需要在關帳後回檔,有時候因為各門市檔案拋回時間的不同,造成不同時間看業績,可能得到的結果是不同的。
但零售業開始增加線上購物的通路,買賣不再是單純的銀貨兩訖,一手交錢一手交貨,而變成會有一個相對負責的「訂單生命週期」。
也就是一張訂單會有許多的狀態,像是從成立訂單、到撿貨、出貨、到到貨後、鑑賞期完成等。因為一張訂單所產生的各種狀態,也讓業績的結算變得更加複雜。
不同的狀態就像數學上的不同單位,也就是說我們不能把已出貨的訂單加上剛成立的訂單業績,得到的總業績數據的意義,會變成意義不明。 - 狀態差:
線上購物的訂單,也就是消費者今天在網站上下單的這些業績,可以直接算進今日業績嗎?
一般來說,訂單成立之後只是一種預售,真實要轉變成為可以結算成業績的訂單,需要到訂單真實撿貨、包裝、出貨後,才能落袋算成業績。
而且訂單還有可能會取消、退貨。如果取消退貨的比率平均有20%,單純看每日線上購物的GMV,很容易跟老闆報告的業績數字,變成一個高20%的歡樂指標。 - 邏輯差:
而退貨的單,要怎麼結算呢?
如果退貨要「勾稽」回原來的訂單,那每個月結算的業績數字,會變成是「浮動」的。
舉例來說,如果11/25的訂單,12/5完成了退貨,結果因為勾稽回原來11/25的單,造成本來11月結算的總業績,會因為12初每天的退貨勾稽回11月訂單,而需要再扣除原本11月才結算的的總業績,結果會因為12月發生的退貨,讓11月的總業績雖然結算了,但卻隨著12月的退貨回來的數字而一直變動。
另外一種做法,是為了讓業績好結算,今天退貨完成的單,就扣在當天,而不勾稽回原訂單。這種做法雖然會讓已經結算的業績不會再變動,但卻會讓當月的總業績,因為上個月活動退貨的數字,造成對當月業績的影響,甚至在經營上誤判。
甚至,有時品牌規模小,還會因為某天退貨量太大,造成某天結算後總業績反而是負的情形。 - 語意差:
含稅、不含稅?實際結帳金額?發票金額?要不要扣除點數折抵?
所以到底業績報表上的總業績,到底是指哪一種業績呢?有時候光一個業績欄位,可能就有10幾種定義,計算的邏輯都不同。
如果來自不同通路的業績報表,沒有釐清各自數字欄位的意義,就把這些通路報表的數字直接加起來變成總業績數字,很容易就算不準真實的數字。
這種欄位定義不同的數字相加,就像雞和兔子放在一起數一樣,怎麼加都不對,而我們並不是在解雞兔同籠的問題。
數據治理的關鍵做法
廚師要做出好吃的食物,新鮮且品質好的食材是最關鍵的。
有時候真正好的食材,越少的烹調反而更能凸顯食物的美味。而好的食材,則來自於從生產開始的每一個步驟,每一個環節,理應都可以看到每一步用心的力道。
所有數據應用都依賴「數據」本身,所以做為原料的數據,從數據源頭開始的每一個步驟,到成為數據應用的產出,都需要好好的管控,每一步驟都是數據治理所涵蓋的範圍。
從食材到每一道料理,從數據源到每一個數據應用,管理好流程上的每一步,才能創造最終的高價值產出。
- 數據清洗:
如同上述會員資料的原始資料狀況,會員資料可能會有重複、資料的缺漏、資料當時輸入時的手誤等等,在正式存入數據庫之前,都要進行「數據清洗」,以確保數據的正確性、一致性、可驗證性、完整性、相依性等等。
就零售業來多,通路越來越多元,等於有很多不同的數據源,來自門市的POS、來自電商的訂單、來自社群平台的訂單等等。不同的數據可能原始數據的格式不同、欄位的定義也不同,也需要在匯入資料庫前,進行數據清洗,把不同定義不同格式的數據拉齊。 - 數據定義:
在整個完整的數據處理的數據流中,每一個欄位數字代表的意義與內容,都要能保持前後一致。數據定義在完整的數據流中,是一個如同憲法般的存在,確立了所有數據清洗(input)、數據應用(output)的根本。
每一個數據從開始進來賦予了名字之後,在整個數據處理流程中,每一個單一個數字,從頭到尾都要帶著自己的名字,以及知道這個名字背後的意義。
無論到哪裡,不要遺失了自己名字,無論怎麼各種應用中流動,不要忘記了自己是誰。 - 數據驗證:
數據驗證是數據處理的QA,如果數據處理的數據流是一條生產線,數據驗證就像品保一樣。數據的處理過程中,會經過許多的運算加工,為了確保這些運算邏輯的合理性,就需要透過數據驗證來確保。
數據定義是確保每一個欄位的內容與意義,數據驗證是確保數據在被計算的過程中的算法與邏輯的合理性。
就像做數學題一樣,數據驗證就是一種驗算。只是處理的是很巨量的數據,透過一種自動化的方式,有效率的做邏輯確認。 - 數據安全:
數據要被安全的保存,未雨綢沒的進行異地備援。因為涉及了大量個資的數據,需要有效的進行加密。
數據的存取要被控管,除了基本的防火牆等軟硬體的保護,最重要的反而是人員的管控。誰可以存取這些數據?不同的人有不同的權限可以存取這些數據?存取數據的過程是不是都有完整的log紀錄。大多數都牽涉到組織對於數據相關人員的管理機制,需要有完整的SOP。
Like my work? Don't forget to support and clap, let me know that you are with me on the road of creation. Keep this enthusiasm together!