分類 探索式資料分析

線性迴歸總是跑不準?這份「模型進化指南」教你如何從數據處理到特徵工程全進化

你是不是也跟我以前一樣,剛學機器學習的時候,第一個接觸的就是「線性迴歸」(Linear Regression)? 那時候覺得這東西超簡單,不就是畫一條線穿過一堆點嗎?model.fit(X, y) 一行程式碼就收工了。但等我真的把這套東西拿到實戰場景,不管是預測公司的電商銷量,還是分析產品的轉化率,我才發現,現實數據根本不聽話。

特徵選擇的科學方法:如何用皮爾森相關係數找到最關鍵變數?

在資料分析領域當中,我們在最初會探索資料特徵之間的關聯性,而資料特徵的主要類別為連續型資料以及類別型資料,本篇文章當中所提到的皮爾森相關係數(Pearson Correlation Coefficient),是用來估計兩個連續型資料資料之間的線性關係,用以比較它們的關係程度。