網絡安全|深度學習也能不玩大數據？小企業訓練大模型有新解網絡安全

【網絡安全|深度學習也能不玩大數據？小企業訓練大模型有新解】

文章圖片

編譯 | 趙迪
編輯 | 云鵬
智東西2月10日消息，據外媒報道， AI領域專家吳恩達向IEEE表示深度學習未來的發展路徑應當從用大數據訓練模型向用優質數據轉變，為無法獲得大數據集的產業提供應用深度學習模型的機會。吳恩達曾任斯坦福人工智能實驗室主任，此前主導谷歌的Google Brain項目。
吳恩達認為，對深度模型的訓練應當從調整代碼轉向調整數據，通過調整影響訓練結果的噪聲數據（無意義數據），僅用少量優質的數據集即可完成模型更新，相較調整代碼或直接提供海量數據的方式，這種方法更具針對性。
吳恩達2017年成立的Landing AI公司目前在為制造業產品檢測方面提供計算機視覺工具，該工具能夠對噪聲數據進行快速標記，使客戶通過更改數據標簽自主完成模型的更新，不需要再對模型本身進行調整。
一、深度學習潛力強大，大數據訓練集成主流人工智能的目標是讓機器像人類一樣“思考”和“行動” ，機器學習是是實現這一愿景的重要方法，深度學習則是機器學習的重要分支，隨著2012年Hinton教授用機器學習方法在ImageNet圖像識別比賽中一舉奪魁，深度學習逐漸受到廣泛關注，在許多領域替代了傳統的機器學習方法，成為人工智能中的熱門研究領域。
過去十年里，深度學習實現了飛速發展，深度學習模型向著越來越大的方向發展，以OpenAI的自然語言處理模型GPT系列模型為例， 2018年， GPT-1的參數規模突破1億，到2020年GPT-3問世時時，參數規模已經突破百億，超大模型的不斷涌現，顯示了深度學習的發展潛力。

但是，吳恩達認為，雖然目前深度學習方法在許多面向消費者的公司里實現了廣泛應用，但是這些公司往往擁有龐大的用戶基礎，能獲得大型數據集進行模型訓練，但對于許多不能獲得大型數據集的行業，則需要將重點從提供大量數據轉向提供優質數據。
二、從代碼轉向數據，用少量數據訓練優質模型過去十年中，訓練深度學習模型的主流方法是下載數據集，然后專注于改進代碼，但如果一個機器學習模型對于大多數數據集來說是正常的，僅在其中一個數據集中出現偏差，為了適應這個數據集改變整個模型架構的方法是低效的。
還有一種方法是從數據下手，這類方法被稱為“Data-centric AI”（以數據為中心的人工智能），一般的方法是通過補充更多數據提升模型的準確性。對此，吳恩達表示，如果試圖為所有情況收集更多數據，這個工作量將會很大，因此他致力開發出標記噪聲數據（無意義數據）的工具，提供一種針對性的方法，為模型訓練提供少量但優質的數據。
吳恩達說他一般采用的方法是數據增強或提高數據標簽的一致性等，比如對一個存有一萬張圖片的數據集，其中30張同類圖片有不同的數據標記時，他希望能夠構建識別標記不一致的圖片的工具，使研究人員能快速對其重新標記，而不是再搜集海量數據進行模型訓練。
三、Landing AI提供數據標記工具，用戶自主實現模型更新2017年，吳恩達成立了Landing AI公司，為制造業公司提供產品檢測的計算機視覺工具，為生產商的產品進行視覺檢測。吳恩達在該公司的首頁介紹道，用人眼發現電路板劃痕超出了人眼觀測能力的極限，但用AI進行識別的準確率就高得多。

網絡安全|深度學習也能不玩大數據？小企業訓練大模型有新解

相關經驗推薦

人工打卡景點有哪些，搜索關于打卡景點

海神七子|斗羅大陸：海鬼斗羅“首選”白沉香做繼承者？只因他忒年輕

小孩能吃夜香花嗎？夜香花什么人不能吃，讀完終于弄懂了

雇傭17歲算童工嗎 17歲算童工嗎

女孩子千萬不要婚前同居有什么說法-女孩子婚前同居面臨的風險

華為榮耀|2021年，華為利潤暴漲76%的三個原因分析

三個字情侶昵稱帶符號

2021清明節旅游去哪里好？清明節人少景美的地點推薦

忠于職守造句忠于職守

激光祛痘后會復發嗎

女生游戲昵稱古風傷感詩意三字以下

無心有沒有想起月牙了無心的月牙

角蛙怎么養?角蛙新手入門飼養教程|爬蟲品種角蛙怎么養

陰陽師：SSR夜刀神強度初評一速大佬的新玩具專業折磨對手

漁民天天吃海鮮為什么不痛風牛肉羊肉豬肉雞肉哪種嘌呤高

蟶子死了多久不能吃蟶子死亡多久后不能吃

今天油價調整最新消息2月2日：2月3日國內油價或將大幅上調

抖音私密賬號怎么關閉抖音私密賬號怎么關閉設置

把游戲公司老板做成手辦？劍三玩家：好怪！但是想買！

【攻略】每個版本究竟能獲得多少資源養角色？一起來看看吧