涌現(xiàn)科技
為全面數(shù)字化賦能的國民科技企業(yè)
隨著5G、人工智能、虛擬現(xiàn)實、超高清等技術的快速發(fā)展,視頻新型應用已經(jīng)不再局限于娛樂場景,而是向工業(yè)制造、金融醫(yī)療、生產(chǎn)辦公等場景拓展。視頻大數(shù)據(jù)時代,視頻編碼的任務不再局限于節(jié)約存儲空間和傳輸帶寬,以及提供好的主觀質(zhì)量,而且還要能為視頻分析處理需求提供更智能的視覺數(shù)據(jù)表示支撐,智能視頻編碼是視頻產(chǎn)業(yè)未來發(fā)展的必由之路。

作為國家高新技術企業(yè),涌現(xiàn)科技一直處于智能視頻編碼領域創(chuàng)新研究的第一梯隊,創(chuàng)新性地定義了智能視頻編碼:智能視頻編碼是指同時面向人眼視覺和機器視覺,運用神經(jīng)網(wǎng)絡等人工智能技術,改善甚至重構現(xiàn)有視頻編碼框架,實現(xiàn)智能視頻高效編碼以及視頻信息的高效處理。智能視頻編碼包含“AI for Coding”和“Coding for AI”兩個部分:
“AI for Coding”是指用AI來增強視頻編碼的效率和質(zhì)量,同時滿足視頻處理中更廣泛的智能化需求。在執(zhí)行信號壓縮任務中,對編碼場景、參數(shù)、模式選擇等信息進行面向應用場景和內(nèi)容特征的分析,利用AI技術對去噪聲、圖像增強、細節(jié)改善等環(huán)節(jié)進行預處理,基于最佳模式的配置與編碼,實現(xiàn)精準化編碼控制,在壓縮效率、圖像質(zhì)量、場景功能擴展上實現(xiàn)全面優(yōu)化。
當前智能視頻編碼的主要應用為研究各類可替代或優(yōu)化傳統(tǒng)編碼技術的神經(jīng)網(wǎng)絡編碼工具,通過在各個編碼模塊中嵌入離線訓練好的神經(jīng)網(wǎng)絡模型以提升編碼性能或進行編碼優(yōu)化,比如AI視頻增強、ROI智能編碼、AI精準編碼、AI快速編碼等。

AI視頻增強:AI視頻增強技術通過在編碼環(huán)節(jié)對視頻進行預處理,能夠?qū)Σ杉O備較差、網(wǎng)絡環(huán)境欠佳、拍攝時間久遠等導致效果不佳的視頻進行優(yōu)化,包括視頻降噪、去馬賽克、色彩增強、智能補幀等,能夠大幅提升視頻質(zhì)量,優(yōu)化終端用戶體驗;
ROI智能編碼:在云會議、安防監(jiān)控等場景中,ROI智能編碼可以將動態(tài)的人物和近乎靜態(tài)的背景進行分離,并采用不同的編碼方式分開編碼整合,對關注度更高的人物區(qū)域進行針對性地畫質(zhì)以及編碼參數(shù)調(diào)整,實現(xiàn)不同等級的碼率分配,有效實現(xiàn)編碼碼率和畫面質(zhì)量之間的平衡;
AI快速編碼:當前的視頻編碼標準中編碼非常復雜,每個像素塊編碼都可以選擇不同的編碼模式,AI快速編碼利用神經(jīng)網(wǎng)絡算法,能夠?qū)Χ喾N可用編碼模式進行比較,并選擇最佳的模式,實現(xiàn)對每個像素塊的最優(yōu)編碼,從而提升視頻編碼效率;
AI精準編碼:AI精準編碼能夠全面利用AI性能,實現(xiàn)像素塊級別的精準控制、分析和判斷,從而針對其信息特征進行專門的編碼優(yōu)化,在控制碼率的前提下大大提升人眼視覺清晰度、流暢度的感知。
目前AI for Coding已經(jīng)在互聯(lián)網(wǎng)視頻、云會議、安防監(jiān)控、工業(yè)醫(yī)療等多個領域都有成功落地的技術應用,未來智能視頻編碼有望實現(xiàn)從端到端的全神經(jīng)網(wǎng)絡編碼,從整體上對編碼框架實現(xiàn)最優(yōu)設計。

傳統(tǒng)視頻編碼都是基于像素塊的處理,對像素塊做預測變換編碼,“Coding for AI”則為視頻編碼提供了全新的思路,即通過特征分析、特征提取,按照智能分析需求進行特征編碼,從而優(yōu)化解碼應用端的智能分析過程,減少解碼端重復調(diào)用AI進行特征提取分析和處理,為后續(xù)針對性重構視頻場景、執(zhí)行智能分析任務奠定基礎。
在執(zhí)行智能分析任務中,完整的視頻信息中存在大量冗余,如果我們能夠?qū)崿F(xiàn)針對所有特征信息的智能編碼,就可以大幅提升智能分析任務的效率。比如在人臉識別、AI質(zhì)檢等任務中,算法只需要提取其中人臉或者產(chǎn)品瑕疵相關的特征信息進行判斷,從而簡化了任務處理流程,大量的冗余消除又降低了帶寬、時延等方面的要求,進一步提升智能編碼效率。

智能視頻編碼打破了傳統(tǒng)編碼模式下壓縮編碼與智能分析相割裂的“1+1”分布式模式,整合了編碼、重組、解碼及智能應用等視頻鏈環(huán)節(jié),實現(xiàn)從視頻編碼到重構分析的一體化智構編碼,達到通用數(shù)據(jù)表示意義下媒體編碼與理解分析的統(tǒng)一,在節(jié)省存儲與傳輸寬帶成本、降低時延、保障視覺質(zhì)量的基礎上滿足對視頻感知、分析、理解等智能應用方面的需求,將成為AIoT全場景下的視頻圖像人機高效處理的重要動力引擎。
隨著智能編碼技術的場景滲透和虛擬終端、VR/AR等下游新興市場的增量起勢,智能視頻編碼的市場規(guī)模加速提升。根據(jù)艾瑞咨詢測算,2021年中國智能視頻編碼整體市場規(guī)模為237億元,較2020年增長64.5%,預計2025年智能視頻編碼市場規(guī)模有望超600億元,基于智能視頻編碼及軟硬件整體解決方案衍生的泛視頻產(chǎn)業(yè)整體市場規(guī)模已突破萬億級別。未來,涌現(xiàn)科技將持續(xù)推動產(chǎn)品創(chuàng)新,深入“產(chǎn)學研用”深度融合,引領智能編碼行業(yè),加速實現(xiàn)“智構視頻”,促進視頻產(chǎn)業(yè)高效、快速發(fā)展。