jvm|AI深度學習專用，用于訓練的超大規模數據集，重點是視頻 Java|并行計算|算法

在深度學習研究中，每個常見的領域都有相應的數據集，以便研究者愛好者乃至產業界使用。而現在的數據集，顯然不可能局限于單一表現形式。機智客個人覺得，正如現在的人工智能研究的方向一樣，不僅包括NLP文本方面，而且還包括圖像領域，當然還有視頻。所以現在可供訓練的數據集，不僅有大量特定領域的文本數據集，還有大量的圖像，或者視頻。
而說起視頻這個表現形式，則值得說道說道。畢竟這貨，從某種意義上講，簡直可以稱之為圖像的擴充（畢竟視頻畫面本身就是一幀幀的靜態圖像）和序列的拓展（畢竟一個完整的視頻，往往包含各種鏡頭語言、情節發展等，需要遵循一些觀感邏輯和順序）。而圖像的訓練，對于很多AI應用研究而言，已經是一個非常考驗算力的任務了，更何況視頻乎？因此雖然現在早已進入短視頻時代，視頻數據大爆發，可是原生視頻未必符合要求，畢竟還要加以標注等預處理，能夠訓練的足夠的視頻數據集依然不多。

以往的視頻數據集，比如早期的數據集如MSR-VTT、DiDeMo、EPIC-KITCHENS都是由人類手工標注的視頻和文本描述組成，沒辦法，不標注的話，恐怕只有人和鬼才能看懂視頻內容， AI程序是絕對看不懂的。也正因為需要有人工標注，所以這簡直就是一個嚇人的浩瀚工程，由于人工造成的成本居高不下。
再者說了，人為的標注，依然也只是包含一些簡單的描述性的語句，這對于數據集復雜性和多樣化拓展是一個障礙，當然影響到了后續開發模型的泛化性能了。而有些通過語音識別（ASR）從而省去人工標注的的視頻，雖然數據集規模大大增加，視頻文本語料更為豐富，然而卻又在質量上打了折扣。
于是乎，來自微軟亞洲研究院MSRA 的8位華人出手了。此次帶來的論文，就是為了更好地理解視頻和解決相關數據問題，它研究了聯合視頻和語言（joint video and language）的預訓練并提出了一個新的數據集HD-VILA-100M（High-resolution and Diversified VIdeo and LAnguage）。
【jvm|AI深度學習專用，用于訓練的超大規模數據集，重點是視頻】這個數據集，不僅在規模上更大，包含了來自300萬個視頻中的1億個視頻文本對，視頻時長合計達到了37萬個小時，而且，質量也高，這里的質量，既克服了以往通過ASR生成的視頻字幕無標點符號等問題普遍質量不高的問題，又在清晰度上有了提升，達到720p的分辨率。另外，在多樣化方面，這個數據集涵蓋得也是相關廣泛。
不僅僅是數據集，研究人員在面對以往沒有研究工作在端到端視頻語言預訓練模型中對時空視頻進行聯合編碼（joint spatio-temporal video representation）的課題上，提出了一個新的模型，模型的輸入是混合圖像序列（hybrid image sequence），序列中包含少量高分辨率（HR）視頻幀和大量的低分辨率（LR）的視頻幀來進行多視頻學習的任務（multiple video learning task）。機智客據了解，此次研究人員提出的這樣的模型設計，不僅能夠實現高分辨率時空視頻表征的端到端訓練，并且在模型設計中也解決了HR和LR的視頻幀選擇以及從混合圖像序列中學到時空特征兩個主要的問題。

jvm|AI深度學習專用，用于訓練的超大規模數據集，重點是視頻

相關經驗推薦

快手最火社會簡短句子快手社會經典語錄短句

“殺豬流”夏侯惇火了，這件1830是核心，又肉攻擊又高

蜂蜜柚子茶可以空腹喝嗎？蜂蜜柚子茶怎么做才好喝？

桑木家具圖片桑木能不能放家里

紅米手機|1500-2000元哪款手機性價比最高？別瞎買！我只推薦這五款全能王

生板栗如何做才好吃竅門生板栗如何做才好吃

2023年南京臨近高考身份證丟了怎么辦高考期間身份證丟了怎么辦

討論市政工程造價管理中的索賠管理

香腸怎么做甜品香腸如何做甜品

哪些人吃粗糧會致癌？吃粗糧會致癌的人有哪些？

怎么免費看收費的電視劇怎樣才能看免費不要錢的電視劇?

王者榮耀手機推薦

小兒腹瀉吃什么好？

霸氣又好聽的名字男生微信什么微信名霸氣又好聽男生

王者:敵方秒選李信怎么辦?放棄羋月,別用呂布,他天克李信

蒸洋蔥水的做法蒸洋蔥水的做法視頻

安徽美食主要有什么安徽各地都有什么美食推薦

沃柑和蘆柑的區別圖片沃柑和蘆柑的區別

可莉|原神：琴團長很強？開玩笑，把可莉逼急了，可以毀滅蒙德十次！

簾重鵝掌簾重