標籤 皮爾森相關係數

欄位太多模型算不動?五種「過濾法」幫你精準抓出數據裡的關鍵訊號

嘿,你曾經遇過這種狀況嗎? 當你拿到一份資料集,滿心期待地想跑個機器學習模型,結果打開檔案一看——欄位(Features)多到要橫向捲動好幾秒才看得完。這時候,如果你直接把這幾百個欄位全部丟進模型裡,通常會發生兩件事:第一,你的電腦風扇開始狂轉,模型跑得比烏龜還慢;第二,預測結果爛得一塌糊塗,因為裡面充斥著太多無關的「雜訊」。

特徵選擇的科學方法:如何用皮爾森相關係數找到最關鍵變數?

在資料分析領域當中,我們在最初會探索資料特徵之間的關聯性,而資料特徵的主要類別為連續型資料以及類別型資料,本篇文章當中所提到的皮爾森相關係數(Pearson Correlation Coefficient),是用來估計兩個連續型資料資料之間的線性關係,用以比較它們的關係程度。