【資源整理】資料分析學習路徑整理
職稱滿天飛,資料分析師、數據分析師、資料科學家、數據工程師、AI工程師、機器學習工程師…,我認為有一個光譜可由淺入深分類一下這些跟「數據」搭上邊的工作(例如 日常工作類型的比例是建立資料架構、清理資料、建模還是視覺呈現報告結果佔多數、會需要產業knowhow的比例多寡等等)。
不過這不是本篇的重點,本篇想針對資料分析入門到精通、到走向資料科學家或數據工程師、AI工程師,過程中的線上教材做歸類。我目前把它簡化成三個階段。
另外這樣的網路文章蠻多的,可以google「data analysis tutorial recommendation」肯定能找到更多無窮無盡的乾貨;不論你最後儲存了哪一篇,重要的是我們找到一篇覺得可以follow的開始學習囉!
Beginner: Data Analysis Concepts
初學重要目標:知道何謂商業上有意義的分析結果、如何從資料產出可視化圖表並做出適切解讀。
- 多吸收產業數據應用案例
> FineReport — 一個案例告訴你,如何在工作中掌握商業資料分析的能力
> FineReport — 行業好文:4大案例分析金融行業的大數據應用
> Coursera—大數據分析:商業應用與策略管理 | 台大開課 - 參考公開的數據可視化範例,了解如何精確使用圖表讓人知道數據中的故事
> Hubspot — Data Visualization 101: How to Choose the Right Chart or Graph for Your Data (較進階,建議)
> 不同圖表不同使用時機,我的報表適合什麼圖形?你用對了嗎?(非常基礎,當成一個檢查)
> 數據可視化:柱狀圖、雷達圖等六種基本圖表的特點和適用場合
> Tableau Public — 可搜尋到其他人公開的視覺化Dashboard範例 - 自己抓取公開的數據集做可視化(視覺化)練習
> Kaggle — 帶有主題的資料集,而且蠻多是直接提供csv,應該是最好用來練習
> 阿里云天池 — 阿里云旗下大数据平台
> 政府開放資料
Intermediate: Do Analysis with EXCEL/Python
中階重要目標:知道如何清理資料、做出符合商業目標的分析、可視化呈現並使用統計數據說服聽眾,完成這一整個flow。
- 從電子書或線上課紮實學習整個流程
> Introduction to Data Analysis HandBook(原文): 他會從資料類型、資料分析流程到跑一個實際案例給你看
> Digital Analytics for Marketing Professionals: Marketing Analytics in Practice | University of Illinois at Urbana-Champaign (4.5星,2209評分):也是從data collection到visualization跑一次案例給你看
P.S. 推薦 課程比較網站 ClassCentral — 跨多個平台找課程時可以互相比較評價 - 透過EXCEL / Python 操作跑一遍analysis流程
> Tutorialspoint 網站文章叢集教學 — Excel Data Analysis Tutorial
> O’Reilly® — Think Stats: Exploratory Data Analysis in Python(原文) - 學習更高階的分析方法
> DATA MINING AND ANALYSIS: Fundamental Concepts and Algorithms(原文) — 多變量分析、處理高維度資料、分類分群方法等(銜接機器學習方法)
*Data Analysis v.s. Data Mining 兩者差異,最主要定義上前者是指產出商業上有用insight的一連串步驟包含data extracting, cleansing, transforming, modeling, visualization,後者則專指機器學習中從大量資料中找出pattern的系統化流程。source: 國外線上學習網站EDUCBA點出共7點差異。
Advanced: Big Data Processing with SQL/Python
高階重要目標:學習其他串接資料技術,了解程式效能對資料處理的影響,並優化程式寫法。
因為真實世界的資料不是永遠都長得那麼工整,會包好一個csv丟給你;很多時候必須藉由網站爬蟲、從DB撈取等方式得到資料。使用Python的好處是能一條龍的完成資料撈取到視覺化過程,但EXCEL仍有他的優點,就是能非常省時的跑出統計分析、圖表報表。
- 學習SQL-like語言
> Data Analyst with SQL Server | Datacamp — 再自己弄一個DB可能有些麻煩,所以初學者我蠻推薦用Datacamp的互動式來學SQL - 學習簡單Python爬蟲
> 推薦大數學堂的YT視頻,他有帶很多類型的案例,包含從找html tag、找藏在network頁籤的api、解決需要登入的問題、防止爬蟲被機器人擋等 - 了解Python中資料處理function的效能,建議用法
> Writing Efficient Python Code | Datacamp
> Official Python Performance Tips — 官方有針對像是Sorting, Loop, Data Aggregation等舉例直覺用法 v.s. 更有效率的用法