麒麟9000全球首創ISP+NPU 融合架構背后的難度

導讀 【影像飛躍:麒麟9000彪悍的另一面】這兩年 手機SoC領域群雄逐鹿、精彩紛呈 2020年我們陸續見證了華為麒麟9000、蘋果A14、高通驍龍888

【影像飛躍:麒麟9000彪悍的另一面】

這兩年 手機SoC領域群雄逐鹿、精彩紛呈 2020年我們陸續見證了華為麒麟9000、蘋果A14、高通驍龍888等一眾“好漢”的輪番登場 其中華為麒麟9000可以說是最特殊 也是最值得研究的一個。

作為全球第一款5nm工藝的5G SoC完整解決方案 麒麟9000在性能、連接、AI、影像、安全等各個方面都實現了創新式的突破 尤其是在影像領域大殺四方 其賦能的華為Mate 40 Pro+、Mate 40 Pro兩款手機在DxOMark榜單上分別以139分、136分傲居第一、第二!

不過 以往談論一款手機影像能力的高低 我們往往會把目光都集中在CMOS傳感器、攝像頭的配置上 卻很容易忽視在幕后默默貢獻的ISP(圖像信號處理器)。事實上在手機影像系統中 ISP在很多場景的重要性更甚于攝像頭。

打個形象的比方 如果把攝像頭視作能打仗的士兵 ISP就是指揮戰斗和戰爭的軍官——沒有合理的指揮 再強的士兵也是無頭蒼蠅;如果攝像頭是看清世界的“眼睛” ISP就是掌控一切的“大腦”。

而在另一方面 我們剛才一直說“影像”而非“拍照” 是因為用戶追求越來越多的 不僅僅是要把照片拍好 更要把視頻拍好 畢竟這是一個視頻的時代 動起來才更精彩。

麒麟9000其中一項獨到之處 恰恰就是將ISP提升到了一個全新的層次 尤其是業界首次實現ISP+NPU的融合架構 不但拍照強悍無與倫比 更讓視頻捕捉煥然一新。

比如超強的細節還原 比如顯著的降噪能力 比如極高的能效 尤其是在暗光環境下堪稱升級版的“夜視儀” 再次走在了時代的最前沿 只留給友商一個遠去的背影。

正是有了這樣強悍的根基 華為Mate 40 Pro系列不但拍照水平一騎絕塵 視頻捕捉更是獨領風騷 雙雙霸占DxOMark榜單前兩名。

【低調的勞模:ISP要干的事兒太多了】

要想理解麒麟9000 ISP+NPU融合架構的精妙之處 我們需要把時鐘往回撥一下 先了解幾個基本概念術語 看看ISP是多么不容易。

眾所周知圖像傳感器(Image Sensor)是數碼相機、智能手機拍照、拍視頻的“眼睛”(相機里是CCD/手機里是CMOS) 最終呈現的色彩、細節都取決于它 其原理是通過一個一個的感光點 對光進行采樣和量化。

但很多人可能并不知道 圖像傳感器其實是“色盲” 如果只用它拍出來的照片就是黑白的 需要搭配色彩濾波器(CFA)才能獲得色彩信息。

1976年 柯達的拜耳發明了RGB CFA 也就是色彩濾波器 如上圖可理解為雙層結構:上層紅(R)綠(G)藍(B)三色的色塊就是色彩濾波器 白光透過濾波器后分離出紅綠藍三原色;下層灰色的色塊則是感光光電二極管(PD)部分 負責將濾波器送來的光信號轉換為電信號 再由后續各種算法進一步處理 并最終成像。

可以說 濾波器的表現如何 是照片、視頻色彩、細節還原的基礎。

當然 從濾波器濾出的RGB色彩 到最終照片上的精彩 需要經過各種復雜算法、技術的處理 這其中有三個是起著決定性因素的。

一是Demosaic插值算法。

RGB拜耳陣列中的每一個像素只能采集一個顏色通道信息 另外兩種顏色信息需要通過插值算法 結合相鄰其他顏色的像素信息計算出來 這樣一個像素的色彩才是完整的。

這個過程有點“去馬賽克”的味道。

二是自動白平衡(AWB)。

由于色溫的影響 白色并不是一直純白無瑕 在低色溫下會偏黃 高色溫下則會偏藍。如果不進行校準使之恢復平衡 色彩就會完全混亂 畢竟白色是三原色和任何色彩的基礎。

于是就有了白平衡 可以讓任何色溫下白色物體的RGB三原色比例關系都是標準的1:1:1 呈現準確的白色。

白平衡算法很多 最常見得有灰度世界算法、完美反射算法、動態閾值算法這么三種。

三是色彩校正矩陣(CCM)。

相機或者說圖像傳感器是機械式的 而人眼是生物式的 二者的感光曲線截然不同 或者說RGB響應曲線并不一致。

白平衡只能處理白色 其他顏色的準確度則需要CCM來校準 也可以用來調節色彩風格 就是各種不同的“濾鏡”。

CCM的原理和過程很復雜 這里就不展開了 具體算法大致可以分為模型法、經驗法這么兩類。

說了這么多 其實無論插值算法還是AWB、CCM 都需要一顆強大、優秀的ISP 才能越做越好 讓最終呈現的色彩更貼近大自然 或者看起來更養眼。

【麒麟990系列:ISP+NPU初步聯手、RYYB物盡其用】

多年來 華為一直在全力提升手機的影像水平 尤其是近幾年始終處于行業最前列 這其中不僅有攝像頭的貢獻 更有ISP層面的創新。

2015年 華為第一次完成自研ISP 應用于麒麟950 此后每一代都經歷一次蛻變 逐漸成為華為手機拍照登頂世界的根基。

到了麒麟990系列 已經內置全新ISP 5.0 吞吐率提升15% 能效提升15% 照片和視頻降噪能力提升30%、20% 手機端首發單反級降噪技術BM3D 全球首發雙域聯合視頻降噪技術。

同時還有創新的華為自研達芬奇架構NPU(神經處理單元) 兩個大核加一個微核的特殊架構 兼顧高性能與高能效 并且ISP、NPU已經開始初步聯合 探索全新的AI攝影。

而基于麒麟990 5G的華為P30系列創新引入了RYYB CFA超感光圖像傳感器 其中Y代表黃色 取代傳統的RGGB格式中的G綠色 光譜響應更寬、光譜覆蓋更廣、能感應更多光子 總體進光量因此提升了30-40% 暗光場景信噪比更佳 夜拍效果更上一層樓。

不過 RYYB作為新生事物并不容易駕馭 傳統ISP的插值算法、AWB、CCM很難處理Y黃色像素的豐富色彩信息 精準還原難度非常大。

為此 華為一方面在后續的Mate 30系列上采用了RYYB、RGGB相搭配平衡的設計 另一方面引入基于AI神經網絡的插值算法、AWB、CCM 并整合在麒麟990 ISP流水線的圖像處理過程中 為傳統ISP流程增加了計算攝影處理 再經過大量的RYYB傳感器RAW數據訓練之后 可以有效找到物體細節、色彩分量之間的復雜映射關系。

可以說 如果只是單純地變革圖像傳感器 而不能在硬件、算法上同步革新 不但不能提升手機的影像水平 反而會陷入混亂。

麒麟990正是憑借強勁的NPU性能 逐步完善了對于全新復雜RYYB CFA的支持 釋放了其對色彩處理的強大潛力 尤其是在視頻實時處理方面邁出了一大步 提升了4K視頻的暗光細節表現、色彩還原效果。

【麒麟9000:ISP+NPU深度融合、超越人眼極限】

在最新一代的麒麟9000處理器上 華為更進一步 全球首創實現了ISP+NPU的融合架構 沒有像友商那樣單純地追求堆積更多ISP 而是通過精密設計的融合架構 將ISP處理流水線、NPU矩陣計算有機地融合在一起 不但拍照更加游刃有余 更是實現了實時視頻的像素級處理。

這樣的融合架構對于靜態照片處理已經不費吹灰之力 這里不再贅述 重點看看視頻處理。

畢竟 照片都是單獨的一幀 視頻則是連續變化的靜態幀組成的 處理24FPS的視頻相當于每秒處理24張照片 而對視頻進行像素級的實時處理 無論對于硬件設計還是軟件算法都提出了空前的考驗。

在傳統的ISP視頻流處理過程中 受制于ISP性能有限、硬件模塊相互隔離、處理帶寬不充分等因素 ISP只能老老實實地逐幀處理 一切排隊進行。

加入NPU助力之后 可以加速處理這一過程 但處理過程中以幀為單位 依然需要排隊。比如當ISP處理第一幀時 NPU需要等待ISP處理完成后才能接替。

麒麟9000改變了這一切 不但集成最新的ISP 6.0 還支持四流水線并行 吞吐量提升50% 視頻降噪能力提升48% 3A(自動對焦/自動曝光/自動白平衡)處理能力提升100% 而最大亮點當屬首創了ISP+NPU融合架構。

ISP+NPU融合后 直接將數據、信息完全打通 使用硬件直連的方式 將原本獨立的NPU計算直接融合ISP的處理流水線中 再結合大容量、高帶寬的智能緩存SmartCache 2.0 使得輸入數據流、輸出數據流都連續不斷 整個過程中沒有任何停頓和等待 數據可以無縫緩沖、實時處理 效率提高了不止一個檔次。

同時 ISP+NPU融合架構改變了逐幀排隊處理的傳統方式 對每一幀進行切片(Slice) 也就是拆分成更小的單元 處理的基本單元不再是一整幀 而是一個個小的切片 從而將每一幀內部、不同幀之間完全打通 加速數據的傳輸與處理。

這樣一來 ISP+NPU聯合就實現了基于幀內分塊的視頻流智能處理。

如上圖 假設每個視頻幀都拆分成四個切片 ISP可以先處理其中兩個切片 快速處理完之后交給NPU進一步加工 此時ISP就可以同時處理該幀的剩余兩個切片 以及下一幀的頭兩個切片 如此往復循環 從而大大縮短等待時間 提高處理效率。

當然 每個視頻幀拆分成幾個切片、NPU/ISP每次處理幾個切片 都是極其靈活的 可以根據每一幀的不同數據量、處理難度來智能切割 還可以在同一幀內應用多種不同算法 流水線效率不可同日而語的同時 還可以得到更豐富的處理效果。

很自然的 這種聯合處理對于ISP、NPU的協同效率提出了極高的要求 畢竟稍有不慎反而會影響整個流程的順暢性。麒麟9000憑借豐富的ISP研發經驗、自研華為達芬奇架構2.0 NPU的強勁AI算力 一切都搭配得天衣無縫。

數據顯示 麒麟9000在處理器4K視頻的時候 可以在33毫秒甚至更低的時間間隔內完成計算任務 尤其是在夜景等會產生海量數據的復雜環境下 可以充分發揮ISP+NPU融合架構的極高處理效率 實現豐富細節的精準色彩還原。

如果你覺得這些理論分析有些難以理解 這里我們來看一個實際例子 感受下ISP+NPU融合架構的神奇魅力。

如上動圖 圓圈中的愿景物體是一個迷你風車 四個葉片又長又細還是深色調 又處在偏暗的環境中 一般情況下即便只是拍照 也很難清晰捕捉到其色彩細節 甚至可能根本就看不清對象本身 更不用說拍視頻。

但是在麒麟9000平臺上 得益于ISP+NPU融合架構一整套方案的智能化處理 可以看到在捕捉的視頻中 風車扇葉異常清晰 色彩清晰 銜接過渡自然 和背景區分明顯 運轉動作也是如行云流水一般的順暢 甚至連扇葉頭部、尾部因為運動快慢不同而導致的模糊程度不同 都展現得淋漓盡致 可能連人眼都捕捉不到這么逼真、翔實的細節。

【ISP+NPU融合:干活更多 功耗控制更好】

那么 ISP+NPU融合架構之后 要干的活兒更多了 會不會更加耗電?這里就體現了融合架構的另一個好處 計算性能上去了 功耗還能很好地得到控制 更好地完成更多任務。

眾所周知 手機拍攝視頻的時候是相當耗電的 遠高于靜態拍照 但是麒麟9000經過多重努力 實現了“馬兒跑得快、馬兒不多吃”的神奇效果。

一是針對大量數據輸入場景進行智能切塊處理 從而大幅降低網絡中間層對計算內存的需求;

二是切片級的數據交互 有效控制算法時延 再結合SmartCache緩存 有效控制視頻場景的功耗。

【融合架構背后的難度 超出你的想象】

你可能會說 這一切看起來似乎也沒什么難的 但是芯片層面的創新 從來和簡單二字無關 ISP+NPU融合的難度和技術挑戰也是常人難以想象的 簡單來說主要是如何達成算法效果、計算性能、計算能耗三者的平衡。

為此 在設計硬件融合架構的同時 為了釋放硬件潛力 華為也在軟件算法上花費了大量心思 做出了大量創新 比如說IPS鏈路的像素級別(pixel level)的AI算法 搭檔算力強悍的AI芯片 實現高能效的端側軟硬結合完整方案。

同時 如今的影像場景下 數據處理都是海量級別的 而且極為復雜 這就需要整個流程方案具備很強的魯棒性(穩健性) 而且為了提高處理大數據量的效率 模型結構也要滿足一定的計算約束 必須利用網絡結構搜索、混合量化等技術 讓模型結構與加速硬件高效配合。

特別是在4K超清分辨率下捕捉視頻 流水線中的圖像數據量比以往多了幾個數量級 畢竟單幀4K圖像處理就已經對AI提出了很高的要求 更何況視頻場景下需要實時進行多幀處理。

舉例來說 4K 30fps的視頻捕捉場景下 整個ISP鏈路必須在33ms內完成單個幀的計算工作 其中留給AI算法進行計算處理的時間就更短 真正的電光火石之間就要處理到位 而一旦計算效率、性能不能滿足 視頻處理過程的效率就會急劇下降 反應在用戶體驗上就是嚴重的卡頓 這自然是無論如何不能接受的。

另外 任何硬件設計、算法設計都要考慮功耗 必須在可控范圍內 否則就會導致明顯的手機發熱。相信大家都有感觸 日常連續拍照、拍視頻的時候 手機會明顯發熱 更何況加入如此復雜的計算流程。

因此 為了達成最佳的影像效果和用戶體驗 突破性的算法效果、快速高效的計算性能、優秀可控的計算能耗 三者是缺一不可的 而麒麟9000 ISP+NPU融合架構 恰恰幾乎完美地做到了這一點 才有了最終呈現在我們眼中的精彩影像。

【一路坐強的麒麟:未來可期】

總的來說 華為手機這幾年在影像能力上持續穩居世界最前列 拿第一拿到手軟 坐榜首坐到寂寞 不但來自于精妙的攝像頭系統 更離不開麒麟芯片、ISP處理器、NPU神經處理單元的鼎力支持。

正是源于這持續不斷的革新 我們才通過小小的手機 越發清晰地看清、記錄整個世界的精彩 留下那一個個令人難以忘懷的瞬間。

從整個行業來看 目前做到從芯到端協同升級的 也只有蘋果、華為這兩家頂級巨頭 而蘋果陶醉在自己的封閉生態內 華為則呈現的是一個開放的世界。

眼下 華為麒麟的發展遇到了前所未有的桎梏 原本無限光明的前景蒙上了厚厚的陰影 但打鐵還需自身硬 經過多年來的一步步穩扎穩打 相信華為麒麟有實力面對任何艱難險阻。

期待麒麟的下一站更精彩!

責任編輯:PSY

免責聲明:本文由用戶上傳,如有侵權請聯系刪除!