吳恩達預熱新課！萬字博客回顧機器學習算法起源( 二 )

2026-04-27 生活百科機器學習

本著這種精神，我們決定探討一些領域內最重要的算法，解釋了它們是如何工作的，并介紹它們不為人知的起源。
如果你是一個初學者，我希望它能幫助你揭開機器學習核心的一些方法的神秘面紗。
對于那些老手來說，你會在熟悉的領域中發現一些鮮為人知的觀點。
學無止境，保持學習！
吳恩達
線性回歸

線性回歸（Linear regression）可能是機器學習中的最重要的統計方法，至于誰發明了這個算法，一直爭論了200年，仍未解決。
1805年，法國數學家勒讓德（Adrien-Marie Legendre）在預測一顆彗星的位置時，發表了將一條線擬合到一組點上的方法。天體導航是當時全球商業中最有價值的科學，就像今天的人工智能一樣。
四年后，24歲的德國天才數學家高斯（Carl Friedrich Gauss）堅持認為，他自1795年以來一直在使用這種方法，但他認為這種方法太過瑣碎，無法寫出來。高斯的說法促使Legendre發表了一份匿名的附錄，指出「一位非常有名的幾何學家毫不猶豫地采用了這種方法」。
這類長期存在發明爭議的算法都有兩個特點：好用，且簡單！
線性回歸的本質上就是斜率（slopes）和截距（biases ，也稱偏置）。
當一個結果和一個影響它的變量之間的關系是一條直線時，線性回歸就很有用。
例如，一輛汽車的油耗與它的重量呈線性關系。

吳恩達預熱新課！萬字博客回顧機器學習算法起源

文章插圖

一輛汽車的油耗y和它的重量x之間的關系取決于直線的斜率w（油耗隨重量上升的陡峭程度）和偏置項b（零重量時的油耗）：y=w*x+b 。
在訓練期間，給定汽車的重量，算法預測預期的燃料消耗。它比較了預期和實際的燃料消耗。然后通過最小二乘法，使平方差最小化，從而修正w和b的值。
考慮到汽車的阻力，有可能產生更精確的預測。額外的變量將直線延伸到一個平面。通過這種方式，線性回歸可以接收任何數量的變量/維度作為輸入。
線性回歸算法在當年可以幫助航海家追蹤星星，后來幫助生物學家（特別是查爾斯-達爾文的表弟弗朗西斯-高爾頓）識別植物和動物的遺傳性狀，進一步的發展釋放了線性回歸的潛力。
1922年，英國統計學家羅納德-費舍爾和卡爾-皮爾遜展示了線性回歸如何融入相關和分布的一般統計框架，再次擴大了其適用范圍。
近一個世紀后，計算機的出現為其提供了數據和處理能力，使其得到更大的利用。
當然，數據從來沒有被完美地測量過，而且多個變量之間也存在不同的重要程度，這些事實也刺激了線性回歸產生了更復雜的變體。
例如，帶正則化的線性回歸（也稱為嶺回歸）鼓勵線性回歸模型不要過多地依賴任何一個變量，或者說要均勻地依賴最重要的變量。如果你要追求簡化，使用L1的正則化就是lasso回歸，最終的系數更稀疏。換句話說，它學會了選擇具有高預測能力的變量，而忽略了其他的變量。
Elastic net結合了兩種類型的正則化，當數據稀少或特征出現關聯時，它很有用。
神經網絡中最常見的一種神經元就是線性回歸模型，往往后面再跟著一個非線性激活函數，所以線性回歸是深度學習的基本構件。
Logistic回歸

Logistic函數可以追溯到19世紀30年代，當時比利時統計學家P.F. Verhulst發明了該函數來描述人口動態。
隨著時間的推移，最初的爆炸性指數增長在消耗可用資源時趨于平緩，從而形成了Logistic曲線。

相關經驗推薦

上一篇：附報名入口佛山疫情防疫志愿者招募信息匯總2022

下一篇：西瓜根葉