涌現科技
為全面數字化賦能的國民科技企業
想必大家時常會有這樣的生活體驗:刷著刷著短視頻,突然就卡頓了,一看手機信號卻是滿格;正開著視頻會議呢,突然就看到屏幕開始馬賽克轉圈圈;一張殘破不堪的老照片卻能通過手機 APP快速復原;直播中的美顏濾鏡可以快速實現人們“返老還童”“青春永駐”的夢想,這背后暗藏著怎樣的硬科技呢?
當前,在線視頻已經超過社交成為占據全網用戶使用時長的第一大應用領域。新冠疫情出現后,在線會議、在線教育、網絡直播等需求大大增加,而在細分視頻領域,視頻直播的用戶規模大大超過了其他視頻點播的娛樂平臺。海量視頻流在 5G加持下正呈現出多元化井噴的趨勢,預計到2026年,全球實時視頻流總市值將達到940億美元。
在如此巨大的視頻流量或者說視頻需求沖擊下,既有的帶寬明顯感覺力不從心。一張 4K圖像的原始大小為24.3MB,而傳輸一個4K 60幀/秒未經壓縮的數據,它的帶寬需求差不多是14Gbps,而5G的理論帶寬卻只有1Gbps。因而在當前的傳輸環境下,對視頻數據的壓縮是網絡傳輸視頻數據時的基本需求。

針對于此,蘇州涌現智能科技有限公司(下稱 “ 涌現科技”)聯合首席執行官范灝成舉了一個特別生動的例子:“對于視頻數據傳輸而言,5G之于4G、3G的提升和容納,就相當于在原有車道上進行6車道甚至8車道的馬路拓寬,但是原始視頻數據的車輛卻是幾倍甚至幾十倍的增加。如果視頻不做有效的壓縮,即使是5G信道,也無法滿足迅速增長的視頻傳輸需求。”
從 480P到720P,從1080P到4K,從4K再到8K,人們對視頻質量的要求越來越高;不僅如此,在8K之外已出現了裸眼3D視頻,這就需要視頻具備8K甚至16K等更高的分辨率;加之元宇宙浪潮的襲來,將需要超高分辨率來覆蓋超廣的場景,同時也帶來了多路同步傳輸的要求。
面對更多路數、更高分辨率的視頻,如何才能滿足這些傳輸的需要呢?范灝成告訴記者, “當前,視頻對于編碼的要求不僅僅是一個基本需求,而且對于編碼本身的壓縮能力也提出了一個更高的要求”。換言之,為了滿足海量高分辨率視頻傳輸的需求,就需要更加有效、高快速的視頻編解碼能力,也就是更好更快的視頻壓縮。
視頻更加智能化,正在賦能千行百業。從當前視頻市場來看,視頻跟 AI的應用在充分的結合,這種結合生發出兩個重要的方向,第一個方向是兩者的結合帶給人們更豐富的觀看體驗,比如在一些高速運動的場景下,通過AI的方法可以提升視頻動態追蹤的能力,此外包括一些視頻直播或者短視頻的美顏功能,一些老照片的修復等。另外一個方向是提供了更智能化的任務,比如智慧城市、智慧教育、智慧醫療、智慧交通等等,AI和視頻的結合,正為人們提供更多的行業應用。
傳統視頻編碼框架以服務人眼為主。范灝成告訴記者,傳統的視頻編碼更多的是基于香農的信息理論(香農的理論其實就是利用時間和空間上的冗余信息來找到可以被壓縮、可以被簡化的部分),更多的是適應人眼對視頻的感知。傳統的以人眼為目標的視頻,經歷了分辨率和幀率的提升,甚至視場從窄視場到寬視場的提升,主要為人類的眼睛看的更清楚、更流暢或者看的更美。而視頻和 AI結合之后,視頻本身發生了一個變化,AI的視頻更多的是給機器看,是給機器學習看的。這些給機器看的視頻需要的是真實性,它要能夠真實還原場景,它需要看的更加準確。
據預測,在未來給機器看的視頻會占據超過 80%的視頻的流量,也就是說,將來,面向機器視覺視頻逐漸會超過人眼視覺而占據主導。這就帶來了一個新的思考,未來的視頻編碼到底應該怎么去定義它的標準呢?比較傳統視頻和服務于機器編碼的視頻,傳統視頻主要是依賴于人眼,但人眼本身具有很多局限性,比如說分辨的精度或者是移動的速度,包括好與壞或者美與丑的判斷,而基于機器學習去觀看視頻時,第一它的精度高,遠超人眼識別分辨率的能力;第二它的感光范圍很廣,它不僅僅看到可見光,還能看見不可見光,也就是人眼看不見的東西;第三它關注的是圖像本身判別的準確性,也就是要求對新的編碼要能夠合理的把圖像當中特別是對機器識別有效的信息提取出來,并且傳輸給后面的處理單元做合理的分析和檢算。
國際上制定視頻編解碼標準的組織主要是 ITU-T和ISO/IEC。ITU-T主要制定如H.261、H.262、H.263、H.264標準,面向實時視頻通信應用;ISO/IEC主要制定MPEG系列標準,主要面向流媒體應用。同時兩個組織ITU&MPEG通過進一步合作輸出H.262/MPEG-2、H.264/AVC、H.265/HEVC、H.266/VCC等標準。國內制定視頻編解碼標準的組織主要是AVS和SVAC。互聯網領域本身存在巨量的視頻分享需求,而HEVC等標準又面臨昂貴的使用費,因此國際互聯網各大企業聯合成立開源媒體聯盟,推出了新的視頻編解碼標準,如VP9/AV1。
現在國際上主流的編碼格式,基本上每過十年會有一代編解碼格式的進步以進一步提升視頻壓縮性能。每一代的編解碼進步平均會帶來約 50%的帶寬節約,但與此同時隨著每一代視頻編解碼標準的進步,算法對算力的要求也隨之變大。以HEVC和H.264為例,HEVC對編碼處理能力的要求是H.264的3~4倍,同時帶寬可以節約接近50%;而HEVC到VCC視頻處理的算力又需要數倍的增加。
AI的場景滲透、視頻智能化應用,正在呼喚新的視頻處理技術,但是路徑在哪里呢?目前在機器視覺編碼領域,國外面向機器的視頻編碼叫VCM(Video Coding for Machines),而國內面向機器智能的數據編碼叫DCM(Data Coding for Machines),這兩者殊途同歸,都是結構性融合人眼視覺與視頻的全新的視頻編碼方式,而且這種融合智能視頻技術擁有更廣闊的應用領域。范灝成指出,雖然找到了技術路徑,但分辨率及幀率的提升、編碼格式的進步、AI算法的融合、VCM/DCM的逐步導入等多要素正推升視頻算力需求呈指數級激增,而當前的CPU/GPU算力提升屬于線性增長相對緩慢。
那么問題如何解決呢?范灝成和團隊在長期的研究中萌發出一個思路。他指出, “視頻是有一個標準格式的,是可以用ASIC或者硬編碼、硬解碼的方式來解決實際應用場景中的計算效率”。隨著算力的高度提升、需求的提升,以及兩者之間缺口的增加,視頻正處在從傳統的GPU、CPU的通用算力平臺解決方案,向一個基于ASIC硬編碼、硬解碼的算力平臺加速轉換的過程當中。
范灝成向記者表示,隨著編碼標準的進步和算力需求的提升,我們對專用于視頻編解碼加速的硬芯片 ASIC的需求越來越多,側重在硬件的加速平臺,涌現科技融合算法和芯片設計,將視頻編解碼算法芯片化,開發出具有自主知識產權、高性能、低功耗視頻編解碼加速芯片,可以支持多路、高并發、高密度的編解碼同時處理運算,同時也支持各種編碼格式和解碼格式,可以做很多靈活的設置,在關鍵自主上面我們也和國產的各種CPU,包括鯤鵬、龍芯做了對接,并與國產信創領域的很多應用都能做到無縫的對接,打通了“算法-芯片-應用場景”。
目前,由涌現科技自主研發的基于 ASIC技術的視頻轉碼硬件加速芯片的第一代產品,已經進入了量產。時下,公司正在研發的第二代產品,預計算力可以提升到8K 90幀的實時編解碼性能,同時也增加了更多的行業應用需求,增強了低延時、更高的解像度以及更多的色域編碼能力。未來,涌現科技第三代的產品將全面轉向專用視頻AI芯片,重新定義深度學習在視頻行業應用中的機器識別能力,建立全新的編碼底層邏輯及AI學習能力。
“與以往的CPU、GPU為主的軟編軟解的方案相比,它最大的優點在于低成本和高性能兼顧,同時它的功耗更低,這為未來的高并發、高密度的視頻處理和視頻處理專用的服務器提供了一個堅實的硬件基礎。”
范灝成介紹,涌現科技現在正在做的是 AI for coding,也就是把現在的技術和AI視頻結合起來,為視頻提供更加智能和完善的視頻編解碼方案。而在未來,涌現科技將會逐步走向 coding for AI,將視頻編解碼的能力和視頻對場景的預分析能力,與GPU、RPP運算能力結合起來,讓編碼更好的服務AI,釋放AI 能力,為世界提供更好的AI智慧解決方案。
“有了這個解決方案,我們會看到人眼視覺與 機器視覺的結合,包括基于AI和視頻編碼技術整條算法鏈上或者是解決方案鏈上的完整解決方案,包括相應的算法、芯片,都是必不可少的,涌現科技作為這方面的探索者,我們會繼續努力,為大家提供更強大的硬件解決方案平臺。”范灝成坦言。
據了解,涌現科技是一家具有國產完全自主技術的新一代智能視頻專用芯片及配套解決方案的科技企業,業務聚焦于基于人工智能的人眼視覺與機器視覺融合編解碼技術,將人工智能與視頻編解碼算法深度融合,通過平衡算法和芯片設計優化,為行業提供高性能、低功耗、低成本的專用芯片、模組、軟件工具及針對特定場景的全棧應用解決方案。
立足于創始團隊強大的產業資源、技術實力和芯片量產經驗,涌現科技擁有業界領先的芯片全流程設計能力及 67項自主知識產權,在業界首先提出建立“人眼視覺/機器視覺融合編碼“的基礎算力平臺,賦能全面數字化。公司的第一代視頻編解碼芯片已經在 14nm 制程節點上量產,廣泛應用于互聯網視頻平臺、云桌面/云手機/云游戲、廣電超高清、智慧城市等領域的數據中心和邊緣計算節點。