分類 資料科學與 AI 實戰

線性迴歸總是跑不準?這份「模型進化指南」教你如何從數據處理到特徵工程全進化

你是不是也跟我以前一樣,剛學機器學習的時候,第一個接觸的就是「線性迴歸」(Linear Regression)? 那時候覺得這東西超簡單,不就是畫一條線穿過一堆點嗎?model.fit(X, y) 一行程式碼就收工了。但等我真的把這套東西拿到實戰場景,不管是預測公司的電商銷量,還是分析產品的轉化率,我才發現,現實數據根本不聽話。

欄位太多模型算不動?五種「過濾法」幫你精準抓出數據裡的關鍵訊號

嘿,你曾經遇過這種狀況嗎? 當你拿到一份資料集,滿心期待地想跑個機器學習模型,結果打開檔案一看——欄位(Features)多到要橫向捲動好幾秒才看得完。這時候,如果你直接把這幾百個欄位全部丟進模型裡,通常會發生兩件事:第一,你的電腦風扇開始狂轉,模型跑得比烏龜還慢;第二,預測結果爛得一塌糊塗,因為裡面充斥著太多無關的「雜訊」。

深入探索固定周期特徵測試 (FCFT):用 Python 分析工業設備的穩定狀態訊號

假設你是一位資料分析師,負責監測工業設備的健康狀態。 設備每天都在固定的周期模式下運轉,你希望找出潛在的異常,並預測設備的退化情況。 在這個情境下,固定周期特徵測試 (Fixed Cycle Features Test, FCFT) 提供了一種精簡但功能強大的方法,幫助你提取穩定狀態的訊號並進行深入分析。

驗證性資料分析(Confirmatory Data Analysis, CDA)|從假設到驗證的資料科學流程核心

在資料分析的世界裡,我們經常聽到「探索性資料分析(EDA)」這個詞,但其實在真正進入嚴謹的統計推論之前,有一個更具系統性的步驟,那就是「驗證性資料分析」(Confirmatory Data Analysis, CDA)。這篇文章將帶你從概念出發,理解 CDA 的定位與用途,並說明它在資料科學與研究中的重要性。

特徵選擇的科學方法:如何用皮爾森相關係數找到最關鍵變數?

在資料分析領域當中,我們在最初會探索資料特徵之間的關聯性,而資料特徵的主要類別為連續型資料以及類別型資料,本篇文章當中所提到的皮爾森相關係數(Pearson Correlation Coefficient),是用來估計兩個連續型資料資料之間的線性關係,用以比較它們的關係程度。

利用分群分布圖(Cluster Distribution Plot)洞察關鍵商業機會!

分群分布圖(Cluster Distribution Plot)是在商業分析當中,一種常見的視覺化分群分析工具,主要用於顯示資料集當中的不同群體(clusters)以及其分佈情況。 我們可以利用此圖表幫助我們理解資料分群當中隱含的結構資訊,用以辨識不同群體當中具有相似性和差異性的部分。

用收益成本分析圖(Profit-Cost Curve)輕鬆評估策略效益

在商業領域中,許多的業務推行和決策往往需要多加考慮在進行決策的調整,調整的目的不外乎是希望提升業務收入,或者降低成本,本篇內容將介紹收益成本分析圖(Profit-Cost Curve),讓機器學習模型在訓練的同時,就自動幫我們評估好模型最佳閾值(threshold),能夠讓業務推行的同時,在收益與成本的管控上取得更好的平衡。

專案檔案總是亂?用 pathlib + tree 打造清晰目錄結構!

很多時候我們在網路上看到有關軟體開發的教學文章,都會事先呈現撰寫程式的資料夾目錄,尤其是越大型的專案開發,越需要更加明確的專案目錄進行規劃,下面麥特會介紹使用計種不同方法將專案目錄呈現出來的方式,不管是在學校的專題報告、工作報告,甚至是軟體開發的教學文章,都可以讓人更加容易的理解其專案目錄的內容唷!