
在深度學習研究中 , 每個常見的領域都有相應的數據集 , 以便研究者愛好者乃至產業界使用 。 而現在的數據集 , 顯然不可能局限于單一表現形式 。 機智客個人覺得 , 正如現在的人工智能研究的方向一樣 , 不僅包括NLP文本方面 , 而且還包括圖像領域 , 當然還有視頻 。 所以現在可供訓練的數據集 , 不僅有大量特定領域的文本數據集 , 還有大量的圖像 , 或者視頻 。
而說起視頻這個表現形式 , 則值得說道說道 。 畢竟這貨 , 從某種意義上講 , 簡直可以稱之為圖像的擴充(畢竟視頻畫面本身就是一幀幀的靜態圖像)和序列的拓展(畢竟一個完整的視頻 , 往往包含各種鏡頭語言、情節發展等 , 需要遵循一些觀感邏輯和順序) 。 而圖像的訓練 , 對于很多AI應用研究而言 , 已經是一個非常考驗算力的任務了 , 更何況視頻乎?因此雖然現在早已進入短視頻時代 , 視頻數據大爆發 , 可是原生視頻未必符合要求 , 畢竟還要加以標注等預處理 , 能夠訓練的足夠的視頻數據集依然不多 。
以往的視頻數據集 , 比如早期的數據集如MSR-VTT、DiDeMo、EPIC-KITCHENS都是由人類手工標注的視頻和文本描述組成 , 沒辦法 , 不標注的話 , 恐怕只有人和鬼才能看懂視頻內容 , AI程序是絕對看不懂的 。 也正因為需要有人工標注 , 所以這簡直就是一個嚇人的浩瀚工程 , 由于人工造成的成本居高不下 。
再者說了 , 人為的標注 , 依然也只是包含一些簡單的描述性的語句 , 這對于數據集復雜性和多樣化拓展是一個障礙 , 當然影響到了后續開發模型的泛化性能了 。 而有些通過語音識別(ASR)從而省去人工標注的的視頻 , 雖然數據集規模大大增加 , 視頻文本語料更為豐富 , 然而卻又在質量上打了折扣 。
于是乎 , 來自微軟亞洲研究院MSRA 的8位華人出手了 。 此次帶來的論文 , 就是為了更好地理解視頻和解決相關數據問題 , 它研究了聯合視頻和語言(joint video and language)的預訓練并提出了一個新的數據集HD-VILA-100M(High-resolution and Diversified VIdeo and LAnguage) 。
【jvm|AI深度學習專用,用于訓練的超大規模數據集,重點是視頻】這個數據集 , 不僅在規模上更大 , 包含了來自300萬個視頻中的1億個視頻文本對 , 視頻時長合計達到了37萬個小時 , 而且 , 質量也高 , 這里的質量 , 既克服了以往通過ASR生成的視頻字幕無標點符號等問題普遍質量不高的問題 , 又在清晰度上有了提升 , 達到720p的分辨率 。 另外 , 在多樣化方面 , 這個數據集涵蓋得也是相關廣泛 。
不僅僅是數據集 , 研究人員在面對以往沒有研究工作在端到端視頻語言預訓練模型中對時空視頻進行聯合編碼(joint spatio-temporal video representation)的課題上 , 提出了一個新的模型 , 模型的輸入是混合圖像序列(hybrid image sequence) , 序列中包含少量高分辨率(HR)視頻幀和大量的低分辨率(LR)的視頻幀來進行多視頻學習的任務(multiple video learning task) 。 機智客據了解 , 此次研究人員提出的這樣的模型設計 , 不僅能夠實現高分辨率時空視頻表征的端到端訓練 , 并且在模型設計中也解決了HR和LR的視頻幀選擇以及從混合圖像序列中學到時空特征兩個主要的問題 。
相關經驗推薦
- 電影|深度剖析:人類是如何淪為手機的奴隸
- iphone13|這次iPhone13真帶了一個好頭,國產機不得已,只能學習
- 中興|中興三大品牌深度整合并邀請吳京代言,新一代藍牙耳機已經發布
- 機器學習|?機器學習和人工智能的應用,在心臟病學的許多領域實現了更快的診斷
- 臺電|深度體驗丨iQOO 9 Pro距離“全能旗艦”只有一步之遙?
- jvm|三星懵了:最初以為是華為缺陣的最大受益者,如今卻淪為華為缺陣的最大受損者
- VR|疫情當下,足不出戶,家用VR多用機,健身減肥娛樂學習一機多用!
- 珠海|國內企業真該好好學習下,珠海佳能關廠補償豐厚
- 小米科技|小米12 Pro深度體驗7天,有3大優點,2小缺點
- 一加科技|不吹不黑,深度體驗一加10 Pro,分享下最真實的使用感受
