
你是不是也跟我以前一樣,剛學機器學習的時候,第一個接觸的就是「線性迴歸」(Linear Regression)?
那時候覺得這東西超簡單,不就是畫一條線穿過一堆點嗎?model.fit(X, y) 一行程式碼就收工了。但等我真的把這套東西拿到實戰場景,不管是預測公司的電商銷量,還是分析產品的轉化率,我才發現,現實數據根本不聽話。

在資料分析領域當中,我們在最初會探索資料特徵之間的關聯性,而資料特徵的主要類別為連續型資料以及類別型資料,本篇文章當中所提到的皮爾森相關係數(Pearson Correlation Coefficient),是用來估計兩個連續型資料資料之間的線性關係,用以比較它們的關係程度。

探索式資料分析(EDA)是在獲得第一手資料後,進行最初的資料觀察與洞見,鑑於不同資料對應該領域的背景知識,身為資料分析人員的我們只能在資料當中探索出相關的資訊,此時自動化探索式資料分析工具就能夠發揮其作用。

在獲取第一手資料的當下,可以讓人快速了解整體資料分佈的樣貌時,最好的方式就是將資料進行視覺化(Exploratory Data Analysis, EDA),而我們在尚未熟悉這份資料的時候,進行的視覺化分析,就被稱作探索式資料分析技巧。