涌現科技
為全面數字化賦能的國民科技企業
隨著AI技術向視頻生產、傳輸和消費環節的滲透,AI技術在視頻分析中的應用逐漸常態化,智能視頻編碼技術的發展路徑將會決定未來智能視頻的趨勢變革。
為了更好地認識智能編碼,促進智能視頻編碼產業發展和生態建設,涌現科技聯合艾瑞咨詢,在2023第六屆中國信息技術應用創新大會智能視頻編碼行業專題論壇上共同發布了2023年《中國智能視頻編碼行業白皮書》,就智能視頻編碼行業的標準發展、產業動態、市場情況進行深入介紹,希望為智能視頻編碼行業的發展提供有益的思路和建議。
以下為2023《中國智能視頻編碼行業白皮書》內容節選,關注“涌現科技”公眾號并回復“智能視頻編碼”聯系我們,可獲取高清完整版報告。
智能視頻編碼行業的發展演進和概念界定
視頻產業活躍發展,催生對視頻編碼技術迭代的迫切需要
多視角全景視頻使得視頻編碼技術趨于復雜多元
視頻技術演進出現多路和全景視頻,視頻的角度和覆蓋范圍不斷擴展。多路視頻是多路攝像頭對應多個視頻畫面,每個攝像頭安裝廣角鏡頭,形成多個大于90度的廣角畫面,而全景視頻則是廣角鏡頭和多路視頻拼接系統技術的延伸,實時獲取周圍360°視場畫面的全景成像系統正逐漸成為視頻領域的研究熱點。多路視頻拼接系統技術是從多個攝像頭采集視頻,在遠端進行拼接,從而獲得遠程、高質量、大場景的沉浸式畫面。全景視頻應用場景涉及VR視頻、機器人、全景地圖、國防工業等領域。
全景視頻的實現即多路視頻拼接系統對于算法要求很高。在視頻圖像拼接過程當中,圖像處理計算數據量龐大,需要短時間內完成對圖像的拼接并且保證多路視頻流的時間一致性,對于視頻編碼技術要求趨于多元化和復雜化。新型視頻應用場景需求的不斷增加催生了超高清視頻和多視頻范圍的需求。

新型應用場景涌現,在娛樂、辦公、工業、安防等領域擴展深化
隨著5G和AI技術的發展,視頻行業商業模式重構,新型視頻應用場景應時而生,廣泛應用于人們的生產、生活之中。視頻應用不再局限于娛樂場景,而是向工業制造、安防領域、生產辦公等場景拓展。在娛樂應用場景中,短視頻、云游戲等作為軟件應用在人們手機、平板等終端設備中隨處可見;受過去幾年疫情的影響,遠程辦公成為強需求,云桌面和遠程會議等作為新型視頻應用是遠程辦公的重要模式;在工業、安防等領域,機器視覺和視頻監控對視頻形式提出了新的要求。未來隨著產業整合泛化和元宇宙布局趨勢加強,廣電超高清、VR/AR等場景持續涌現,人們需求和視頻類型將會更趨多元。

視頻編碼標準框架未脫離傳統統計學范疇,亟需革新
近四十年來,盡管上述視頻壓縮標準持續迭代、編碼效率穩步提升,但仍未脫離劃分、預測、變換、量化、熵編碼的技術框架。以H.26x為例,每一代新的視頻編碼標準都比上一代標準的編碼效率提升近一倍,節省了約40%-50%的碼率,但與此同時編碼的復雜度卻是幾倍的增加。在現有的標準體系下,算力成本的“邊際收益”加速遞減,基于統計學原理的傳統視頻編碼標準已經逼近了技術上限,當前的視頻壓縮技術難以滿足下游視頻應用的快速增長,亟需引入新技術以激活視頻編碼這一視頻產業鏈價值裂變的關鍵環節,充分釋放產業勢能,為智能視頻產業提供底層支持。
智能視頻的發展需要高性能編碼器的推動,應用于智能視頻的編碼器需具備更高的編碼效率與分辨率,更多編碼模式的選擇與更加靈活的技術架構,便于與AI應用結合,賦能智能分析,服務于涵蓋虛擬現實、游戲、數字生產視頻等豐富場景。智能視頻端的編碼需求同步催生了智能視頻編碼技術的升級迭代,助力行業整體發展。

人工智能賦能視頻編碼,端到端的智能視頻重構是未來演進方向
智能視頻編碼同時面向人眼視覺和機器視覺,運用神經網絡等人工智能技術,一方面執行信號壓縮任務,對編碼場景、參數、模式選擇等信息進行面向應用場景和內容特征的分析,利用AI技術對去噪聲、圖像增強、細節改善等環節進行預處理,基于最佳模式的配置與編碼,實現精準化編碼控制,提高壓縮效率,即“AI for Coding”;另一方面在編碼過程中兼顧后續的智能分析過程,通過特征分析、特征提取,按照智能分析需求進行特征編碼,優化解碼應用端的智能分析過程,減少解碼端重復調用AI進行特征提取分析和處理的重復過程,為后續針對性重構視頻場景、執行智能分析任務奠定基礎,即“Coding for AI”。智能視頻編碼打破了傳統編碼模式下壓縮編碼與智能分析相割裂的“1+1”分布式模式,整合了編碼、重組、解碼及智能應用等視頻鏈環節,實現從視頻編碼到重構分析的一體化智構編碼。

中國智能視頻編碼行業的發展現狀
中國智能視頻編碼行業的市場規模
智能視頻編碼整體市場規模包括軟件服務和硬件設備兩部分。根據艾瑞咨詢測算,2021年中國智能視頻編碼整體市場規模為237億元。2020年得益于超高清視頻的推廣與落地應用和疫情催化下云視頻會議和在線教育的快速滲透,消費端和產業側的生活娛樂、工作交流紛紛從線下轉向線上,使得2020年智能視頻編碼市場增速達64.5%。2021年起智能視頻編碼市場恢復平穩較快發展,隨著智能編碼技術的場景滲透和云游戲、VR/AR等下游新興市場的增量起勢,市場規模加速提升,預計2025年智能視頻編碼市場規模有望突破600億元。

中國智能視頻編碼產業鏈及競爭格局分析
中國智能視頻編碼產業鏈主要由核心硬件與編碼標準、智能視頻編碼解決方案與細分場景應用三個部分構成。
(1)云計算、通信服務及CDN服務作為基礎支持貫穿整個智能視頻編碼產業。
(2)智能視頻編碼產業鏈的上游由編碼標準與核心硬件構成。
(3)多領域細分場景是智能視頻編碼產業鏈的終端環節。
(4)智能視頻編碼解決方案是產業鏈的核心環節。

中國智能視頻編碼應用場景分析
互聯網視頻場景
近二十年,隨著底層基礎設施和技術體系的日趨成熟,互聯網視頻蓬勃發展,逐漸成為了人們獲取信息、交流娛樂的重要方式。相比單純的文字、圖片或音頻,視頻以更加直觀的方式聚合多維度的信息,能夠帶來更強的沉浸式體驗和交互性。根據CNNIC第50次《中國互聯網絡發展狀況統計報告》數據,截至2022年6月網絡視頻用戶規模為9.95億,占網民整體的比例高達94.6%。隨著視頻類應用使用體驗的大幅優化,其消費時長占移動互聯網應用的比例呈現上升態勢,這為視頻編碼創造了巨大的市場空間。2025年中國互聯網視頻編碼市場規模將達270億元,相比2019年的爆發性增長,互聯網視頻行業發展趨穩,年增長率穩定在25%的水平。

互聯網視頻根據服務類型主要分為點播、直播和互動直播三類。轉碼是點播服務的核心技術,可伸縮編碼技術在互聯網視頻轉碼這一環節得到了廣泛應用,具體是指事先將內容提供方上傳的視頻在云端解碼再編碼,轉換為標準格式并云端存儲,根據用戶實際帶寬情況和播放終端自動、靈活地匹配分發不同碼率的視頻文件,在多碼流場景下提供最佳解碼畫質的解決方案,即兼顧清晰度和流暢度的最優觀看體驗。可伸縮編碼技術也稱為分層編碼,可通過AI編碼工具實現并具有魯棒性。直播與點播相比具有實時性和突發性特征,對時延和首屏時間等指標更為敏感,對高并發和弱網環境下的穩定性也有著更高的要求。與常見的單向一對多直播不同,互動直播支持用戶的雙向交流。這種雙向交流一方面對延時的容忍度極低,另一方面因為涉及多路視頻流,帶寬壓力和編解碼壓力成倍增加。

廣電超高清視頻場景
5G、大數據、云計算、物聯網、區塊鏈、人工智能等技術推動廣播電視發展從標清到高清、超高清,從功能業務型到智能服務型,從被動接收到主動交互迭代發展。4K/8K大型直播作為超高清視頻的典型應用場景之一,對全流程制播設備和視頻編碼技術的編碼效率和時延提出了更高要求。超高清直播與5G技術已經成為標配,基于5G網絡傳輸下的轉直播應用不斷拓展。
超高清視頻廣播產業的高速發展,驅動以視頻為核心的行業智能化轉型,產業生態體系逐步完善,超高清視頻智能編碼市場容量日趨增長。艾瑞咨詢預測2025年智能視頻編碼在廣電超高清領域的市場規模有望突破30億,未來增速將保持在35%以上。

8K VR技術和360度視角拍攝將成為未來高清轉播的重要技術手段。以北京2022年冬殘奧會的殘奧冰球項目為例,運用8K VR及自由視角的拍攝制作技術,展示了接近360度旋轉的“自由視點”。通過場內布置的60臺攝像機最佳機位形成真實視點,并在每兩個真實視點之間插入30個“虛擬視點”畫面,將虛擬視點和真實視點進行融合拼接,向觀眾呈現出如時間靜止般、平滑的精彩回放鏡頭。體育賽事超高清360度新興轉播技術從現場、云服務器、5G網絡再到終端實現8K VR比賽信號直播,提升賽事觀賞性和臨場感。360度多路視角拍攝需要實現對現場攝像機的視頻內容進行AI圖像穩定處理和時間同步處理,將多路視頻的時間軸保持幀級同步,并處理成自由視角視頻流。當需求上升到上百路4K級超高清視頻時,傳統的軟編或者GPU編碼方式將帶來成本的指數級上升。亟需能夠集成多路接口進行高清數字接口視頻輸入和對360度超高清影像進行專用處理的芯片,與智能視頻編碼技術結合,保障超高清廣播視頻的高效傳輸。
虛擬終端場景
高效的視頻編碼標準和編碼器碼率控制模塊是虛擬終端平臺的核心需求。虛擬終端市場發展處于產業起步階段,雖然初具規模,但市場較為分散,虛擬終端作為智能視頻編碼技術的新型應用場景,市場規模的增長幅度和增長空間較大,艾瑞咨詢預計,2025年云游戲、云桌面和云手機市場下智能視頻編碼的市場規模將突破50億元,增長率保持在20%以上。

在云游戲傳統GPU編碼方案中,圖形渲染和視頻流編碼都在GPU中進行,通常GPU在進行視頻圖形渲染時,視頻編碼能力會有所下降,并且GPU的編碼性能相比專用轉碼芯片存在一定差距。針對此短板的智能視頻編碼解決方案將GPU與專用轉碼芯片結合,補充專項編碼能力,釋放CPU和GPU資源,并且支持直接從GPU圖像存儲中獲取編碼數據,免去HOST層延時,增強圖片渲染能力的同時達到每幀編碼超低耗時的目的。

城市安防場景
交通、公安、司法是面向政府端安防領域的核心組成部分,其中交通、公安細分場景,對于視頻監控的依賴程度較高,VCM/DCM及AI輔助編碼技術在視頻監控的傳輸與展示效果中可以發揮更大價值。視頻監控在司法領域承擔的主要任務是庭審監測,監控視頻體量與視頻質量要求均遠低于在公安、交通領域的應用,現階段對助力視頻分析的VCM/DCM及相關AI編碼技術不存在強烈需求。安防市場的“馬太效應”明顯,海康威視、大華股份、宇視科技、華為等龍頭企業在業內占據絕對比重。2021年智能視頻編碼在安防交通領域的市場規模約22億元,伴隨疫情逐漸好轉大背景下整體安防市場的回暖,智能技術與視頻監控場景的適配結合,智能視頻編碼標準的改進完善,艾瑞咨詢預測2025年智能視頻編碼在安防交通領域的市場規模有望突破30億。

工業制造場景
機器視覺是視頻編碼技術與制造業緊密連接的核心技術載體,作為人工智能技術中快速發展的一個分支,自上世紀80年代,機器視覺已逐步在多個領域成功替代人眼視覺進行識別、檢索、分析、判斷等應用。2015年出臺的《中國制造2025》強國戰略行動綱領,明確了制造業智能升級任務的重要性與緊迫性,推動了企業在研發、生產、管理、服務等方面的智能化改進。機器視覺系統是綜合光學、機械、電子、計算機軟硬件等多維度能力的技術,依托圖像處理、模式識別、信號處理、人工智能等技術在工業制造領域替代人眼執行工作。相較于人眼視覺,機器視覺在分辨率、速度、精度等方面具備絕對優勢。作為機器視覺系統的前端數據采集設備,工業相機的品質優劣、相機幀率壓縮效果的高低將直接決定機器視覺編碼圖像視頻的呈現質量。

中國智能視頻編碼行業引領者動態
標準組織機構
“Coding for AI”是VCM與DCM技術方案的核心理念,即通過特征提取與特征編碼,從視頻生產環節降低數據傳輸與計算負載,保留價值信息,適配后續機器視覺智能分析。基于神經網絡構建機器視覺模型,便于模型迭代與模塊調用,優化編碼測試結構,平衡編碼復雜度與傳輸時延,讓視頻采集數據精準服務于最終分析任務。VCM與DCM編碼標準均處于探索階段,在下一代標準正式公布之前,面向機器視覺分析的需求仍主要依賴成熟性高,具備成本優勢的傳統編碼器實現。
伴隨服務于機器視覺的視頻編碼技術日趨完善,編碼標準的發力方向將向第二階段面向人機混合視覺的視頻編碼技術傾斜,即同一碼流同時滿足人眼視覺對視頻質量的要求,并兼顧機器視覺需求。未來視頻行業需滿足泛化要求,前置應用場景,視頻生產根據實際需求進行編碼,適配所有類型的視覺任務,因此對結合AI算法并服務于各種應用場景的智能編碼技術的研究成為趨勢。
