機器學習:開啟智能創新之門
三、機器學習:實現人工智能的高效方法
從廣義上來說,機器學習是一種能夠賦予機器學習的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用數據,訓練出模型,然后使用模型預測的一種方法。國外有些學者對機器學習進行了定義大同小異,有學者認為,機器學習是對能通過經驗自動改進的計算機算法的研究;也有學者認為,機器學習是指利用數據或以往的經驗,以此優化計算機程序的性能標準。由此可知,機器學習是通過經驗或數據來改進算法的研究,通過算法讓機器從大量歷史數據中學習規律,得到某種模式并利用此模型預測未來,機器在學習的過程中,處理的數據越多,預測結果就越精準。
機器學習在人工智能的研究中具有十分重要的地位。它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域。從20世紀50年代人們就開始了對機器學習的研究,從最初的基于神經元模型以及函數逼近論的方法研究,到以符號演算為基礎的規則學習和決策樹學習的產生,以及之后的認知心理學中歸納、解釋、類比等概念的引入,至最新的計算學習理論和統計學習的興起,機器學習一直都在相關學科的實踐應用中起著主導作用。現在已取得了不少成就,并分化出許多研究方向,主要有符號學習、連接學習和統計學習等。
(一)機器學習的發展歷程
機器學習發展過程大體可分為以下四個階段:
1.50年代中葉到60年代中葉
在這個時期,所研究的是“沒有知識”的學習,即“無知”學習;其研究目標是各類自組織系統和自適應系統;其主要研究方法是不斷修改系統的控制參數以改進系統的執行能力,不涉及與具體任務有關的知識。指導本階段研究的理論基礎是早在40年代就開始研究的神經網絡模型。隨著電子計算機的產生和發展,機器學習的實現才成為可能。這個階段的研究導致了模式識別這門新科學的誕生,同時形成了機器學習的二種重要方法,即判別函數法和進化學習。塞繆爾的下棋程序就是使用判別函數法的典型例子。不過,這種脫離知識的感知型學習系統具有很大的局限性。無論是神經模型、進化學習或是判別函數法,所取得的學習結果都很有限,遠不能滿足人們對機器學習系統的期望。在這個時期,我國研制了數字識別學習機。
2.60年代中葉至70年代中葉
本階段的研究目標是模擬人類的概念學習過程,并采用邏輯結構或圖結構作為機器內部描述。機器能夠采用符號來描述概念(符號概念獲取),并提出關于學習概念的各種假設。本階段的代表性工作有溫斯頓(Winston)的結構學習系統和海斯·羅思(Hayes Roth)等的基于邏輯的歸納學習系統。雖然這類學習系統取得較大的成功,但只能學習單一概念,而且未能投入實際應用。此外,神經網絡學習機因理論缺陷未能達到預期效果而轉入低潮。因此,使那些對機器學習的進展抱過大希望的人們感到失望。他們稱這個時期為“黑暗時期”。
3.70年代中葉至80年代中葉
在這個時期,人們從學習單個概念擴展到學習多個概念,探索不同的學習策略和各種學習方法。機器的學習過程一般都建立在大規模的知識庫上,實現知識強化學習。尤其令人鼓舞的是,本階段已開始把學習系統與各種應用結合起來,并取得很大的成功,促進機器學習的發展。在出現第一個專家學習系統之后,示例歸約學習系統成為研究主流,自動知識獲取成為機器學習的應用研究目標。1980年,在美國的卡內基梅隆大學(CMU)召開了第一屆機器學習國際研討會,標志著機器學習研究已在全世界興起。此后,機器歸納學習進入應用。1986年,國際雜志《機器學習》(Machine Learning)創刊,迎來了機器學習蓬勃發展的新時期。70年代末,中國科學院自動化研究所進行質譜分析和模式文法推斷研究,表明我國的機器學習研究得到恢復。1980年西蒙來華傳播機器學習的火種后,我國的機器學習研究出現了新局面。
4.機器學習最新階段始于1986年
一方面,由于神經網絡研究的重新興起,對連接機制學習方法的研究方興未艾,機器學習的研究已經在全世界范圍內出現新的高潮,機器學習的基本理論和綜合系統的研究得到加強和發展。另一方面,對實驗研究和應用研究得到前所未有的重視,機器學習有了更強的研究手段和環境。從而出現了符號學習、神經網絡學習、進化學習和基于行為主義(actionism)的強化學習等百家爭鳴的局面。

圖2 機器學習的發展歷程
(二)機器學習的結構模型
機器學習的本質就是算法。算法是用于解決問題的一系列指令。程序員開發的用于指導計算機進行新任務的算法是我們今天看到的先進數字世界的基礎。計算機算法根據某些指令和規則,將大量數據組織到信息和服務中。機器學習向計算機發出指令,允許計算機從數據中學習,而不需要程序員做出新的分步指令。
機器學習的基本過程是給學習算法提供訓練數據。然后,學習算法基于數據的推論生成一組新的規則。這本質上就是生成一種新的算法,稱之為機器學習模型。通過使用不同的訓練數據,相同的學習算法可以生成不同的模型。從數據中推理出新的指令是機器學習的核心優勢。它還突出了數據的關鍵作用:用于訓練算法的可用數據越多,算法學習到的就越多。事實上,AI 的許多最新進展并不是由于學習算法的激進創新,而是現在積累了大量的可用數據。

圖3 機器學習的結構模型
(三)機器學習的工作方式
1.選擇數據:首先將原始數據分成三組:訓練數據、驗證數據和測試數據;
2.數據建模:再使用訓練數據來構建使用相關特征的模型;
3.驗證模型:使用驗證數據輸入到已經構建的數據模型中;
4.測試模型:使用測試數據檢查被驗證的模型的性能表現;
5.使用模型:使用完全訓練好的模型在新數據上做預測;
6.調優模型:使用更多數據、不同的特征或調整過的參數來提升算法的性能表現。

圖4 機器學習的工作方式
(四)機器學習發展的關鍵基石:
(1)海量數據:人工智能的能量來源是穩定的數據流。機器學習可以通過海量數據來“訓練” 自己,才能開發新規則來完成日益復雜的任務。目前全球有超過30億人在線,約170 億個連接的設備或傳感器,產生了大量數據,而數據存儲成本的降低,使得這些數據易于被使用。
(2)超強計算:強大的計算機和通過互聯網連接遠程處理能力使可以處理海量數據的機器學習技術成為可能,具某媒體稱,ALPHGO之所以能在與對李世石的對決中取得歷史性的勝利,這與它硬件配置的1920個CPU和280個GPU超強運算系統密不可分,可見計算能力對于機器學習是至關重要的。
(3)優秀算法:在機器學習中,學習算法(learning algorithms)創建了規則,允許計算機從數據中學習,從而推論出新的指令(算法模型),這也是機器學習的核心優勢。新的機器學習技術,特別是分層神經網絡,也被稱為“深度學習”,啟發了新的服務,刺激了對人工智能這一領域其他方面的投資和研究。

圖5 機器學習的關鍵基石
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













