【學習記錄 | 本週總結】 Week 28 - 機器學習陣痛中
本週總結
- Google Data Analysis Professional Certificate 到手 !!!
- 完成了 谢承熹老師 YT 的 ML 系列影片 (有部分運算驗證的地方還沒看明白)
- 繼續Kaggle~ 開始參加 Kaggle 上的比賽
本週回顧
谢承熹老師 的 ML 系列影片
終於完成了謝老師的 Python Machine Learning 系列影片,本系列謝老師以 Sebastian Raschka 的 《Python Machine Learning》Code為主,再配上 Christopher Bishop 的 《Pattern Recognition and Machine Learning》 開源內容,講解整個機器學習的模型建構過程,由最基本的 Data Preprocessing 、Data Compressing、 Dimensionally Reduction ,到 Regression、Classification、Unlabeled Data、Ensemble Models 的模型的理論及實際、以及 Model Evaluation & Hyperparameter Tuning 都一一論述。如果沒有謝老師的講解,我一個人肯定看不下去哈哈。
雖然有部分關於數學推算的內容還沒看懂,但整個系列穩固了我對機器學習的基礎理解。打好了個根基,我現在看 Kaggle 上別人的 code 也更容易掌握。下一步就是多做 Kaggle 的dataset 練習,以及開始學習謝老師的 Deep Learning 系列影片。
Google Data Analysis Capstone Project
我終於完成 Capstone Project 了。在最後關於建議方面,我沒有使用到 Marketing 的理論去寫,這是第一個可惜的點。另外,現在回想起來,其實我在數據組可信度分析以及數據分析都有地方可以做的更好。包括可以按照ROCCC (Reliable Original Comprehensive Current Cited) 對原始數據進一步進行可信度分析。而在數據分析中,也可以往各數據進行更深層次的檢視及分析。關於這些部分,希望可以在周末修改更新。
然後,我也完成了系列中的最後一個課程,取得本系列的證書。當然,也簡單的分享了在Linkedin 上。
在最後一個課程中,Google 提供很多有關面試時需要注意的地方,以及一些十分有用的網上資源,比如一年免費使用 Big Interview 。加上在先前的課程中,也講解了 Resume,個人認為這一個 Professional Certificate 包含了理論、實操、以及找工作相關的內容,簡直物超所值(注:我是在一個月內以全天學習的形式)。
Kaggle Competition
正式來說,我參加了個人第一個Kaggle Competition,是一個 Kaggle Playground Prediction Competition,在我理解中,這是一個主要給我們這些臭新手練習 Machine Learning 的系列比賽。我的摘要就是因為這個。在EDA、資料預處理、以Lazy Predict Library檢查各模型可得分數後,我選擇建構一個XGBoost。在建構模型後,調參後的模型分數比使用默認參數的模型還要低。針對這個問題,我有幾個思考方向:1. 調參過程出現問題,這個是最大可能;2. 最好的參數就是默認的那些參數,其實不需要進行調參,這個也有可能; 3. 數據預處理階段沒做好,導致分數受影響,但這個看起來與整個模型建構更有關。
關於解決方案,我還有11天時間去思考,下一步我會嘗試每個解決方向,也會嘗試使用一些自動化模組去建構我的模型,作為一個交叉驗證,檢查在模型的建構中是否也出現了一些問題。
本週目標
上一周還是有兩個沒完成,要帶到本周,哭哭。
- Forage Experience Program
PMG Data Analytics Consulting Virtual Internship / ANZ Data@ANZ Program / Quantium Data Analytics Virtual Experience Program (任一) - 整理 Github, Kaggle
- 修改 Google Capstone Project
Like my work? Don't forget to support and clap, let me know that you are with me on the road of creation. Keep this enthusiasm together!