存算一體或者叫存內計算技術隨著AI的火熱再一次成為業內關注的焦點 存儲和計算的融合有望解決AI芯片內存墻的限制 當然 實現的方法也各不相同。雷鋒網此前介紹過知存科技基于NOR FLASH存內計算 還有清華大學錢鶴、吳華強教授團隊基于憶阻器的存算一體單芯片算力可能高達1POPs。三星基于HMB的存內計算芯片又有何亮點?
三星最新發布的基于HBM2的新型內存具有集成的AI處理器 該處理器可以實現高達1.2 TFLOPS的計算能力 從而使內存芯片能夠處理通常需要CPU、GPU、ASIC或FPGA的任務。
新型HBM-PIM(Processing-in-memory 存內計算)芯片將AI引擎引入每個存儲庫 從而將處理操作轉移到HBM。新型的內存旨在減輕在內存和處理器之間搬運數據的負擔 數據的搬運耗費的功耗遠大于計算。
三星表示 將其應用于現有的HBM2 Aquabolt內存后 該技術可以提供2倍的系統性能 同時將能耗降低70%以上。該公司還聲稱 新存儲器不需要對軟件或硬件進行任何更改(包括對內存控制器) 可以讓早期采用者更快實現產品的上市。
三星表示 這種存儲器已經在領先的AI解決方案提供商的AI加速器中進行了試驗。三星預計所有驗證工作都將在今年上半年完成 這標志著產品上市進入快車道。
三星在本周的國際固態電路會議(ISSCC)上展示了其新存儲器架構的詳細信息。
如您在上面的幻燈片中看到的 每個存儲庫都有一個嵌入式可編程計算單元(PCU) 其運行頻率為300 MHz 每個裸片上總共32個PCU。這些單元通過來自主機的常規存儲命令進行控制 以啟用DRAM中的處理功能 不同的是 它們可以執行FP16的計算。
該存儲器還可以在標準模式下運行 這意味著新型的存儲器既可以像普通HBM2一樣運行 也可以在FIM模式下運行以進行存內數據處理。
自然地 在存儲器中增加PCU單元會減少內存容量 每個配備PCU的內存芯片的容量(每個4Gb)是標準8Gb HBM2存儲芯片容量的一半。為了解決該問題 三星將4個有PCU的4Gb裸片和4個沒有PCU的8Gb裸片組合在一起 實現6GB堆棧(與之相比 普通HBM2有8GB堆棧)。
值得注意的是 上面的論文和幻燈片將這種技術稱為功能內存DRAM(FIMDRAM Function-In Memory DRAM) 但這是該技術的內部代號 這個技術現在的名稱是HBM-PIM。三星展示的是基于20nm原型芯片 該芯片在不增加功耗的情況下可實現每pin 2.4 Gbps的吞吐量。
論文將基礎技術描述為功能內存DRAM(FIMDRAM) 該功能在存儲庫中集成了16寬單指令多數據引擎 并利用存儲庫級并行性提供了比片外存儲高4倍的處理帶寬。另外 可以看到的是這種芯片存儲解決方案無需對常規存儲器控制器及其命令協議進行任何修改 這使得FIMDRAM可以更快在實際應用中使用。
不幸的是 至少在目前看來 我們不會在最新的游戲GPU中看到這些功能。三星指出 這種新內存要滿足數據中心、HPC系統和支持AI的移動應用程序中的大規模處理需求。
與大多數存內計算技術一樣 希望這項技術能夠突破存儲芯片散熱的限制 尤其是考慮到HBM芯片通常部署在堆棧中 而這些堆棧并不都有利于散熱。三星的演講者沒有分享HBM-PIM如何應對這些挑戰。
三星電子存儲器產品計劃高級副總裁Kwangil Park表示:“我們開創性的HBM-PIM是業內首個針對各種AI驅動的工作負載(如HPC 訓練和推理)量身定制的可編程PIM解決方案。我們計劃通過與AI解決方案提供商進一步合作以開發更高級的PIM驅動的應用。” 責任編輯:tzh