91无码视频一区|蜜臀福利在线观看|日韩一极黄色视频|色欲人妻少妇Av一区二区|婷婷香蕉视频欧美三级片黄色|一级A片刺激高潮|国产精品污污久久|日韩黄色精品日韩久久综合网|中国一级片电影在线|超碰乱码久久久免费

DeepSeek-OCR實現(xiàn)光學(xué)壓縮 光計算助力大模型突破長上下文瓶頸

2025-11-28
光計算加速視覺token壓縮文本,為大模型長上下文處理“減負(fù)”。


注意力機制是大語言模型成功的關(guān)鍵,但上下文窗口增大時,注意力矩陣的算力需求呈指數(shù)級增長。當(dāng)窗口長度達(dá)1000K,僅存儲該矩陣就需約2TB顯存,導(dǎo)致大模型算力不足。


為解決此問題,DeepSeek提出上下文光學(xué)壓縮方案,用視覺token壓縮文本token。其DeepSeek-OCR論文驗證了該方案的可行性,還啟發(fā)業(yè)內(nèi)探索讓大模型“學(xué)會遺忘”。


光計算企業(yè)光本位科技認(rèn)為,這一驗證進(jìn)一步表明光計算是大模型的未來方向,公司正積極推進(jìn)光計算與大模型的融合。


01 以“視覺token”壓縮文本token


DeepSeek-OCR論文的數(shù)據(jù)顯示,該方法的視覺壓縮能力出色:壓縮率達(dá)10倍時,仍能保持96.5%的精度,證實了視覺壓縮的可行性。



DeepSeek-OCR論文數(shù)據(jù)


DeepSeek提出的DeepEncoder模塊是上下文光學(xué)壓縮的核心,包含SAM、兩層卷積塊和CLIP三個子模塊。


SAM模塊先通過窗口注意力機制將原圖分割為多個局部窗口,再用ViT圖像識別模型計算各窗口的關(guān)聯(lián)度。關(guān)聯(lián)度高的區(qū)域會融合特征,空白區(qū)域因關(guān)聯(lián)度低保持低特征值,在后續(xù)卷積模塊中被丟棄,實現(xiàn)信息提取與壓縮的雙重效果。


最后,壓縮后的視覺token輸入CLIP,通過全局注意力機制捕捉圖像的整體語義和上下文信息。


至此,DeepSeek-OCR完成壓縮流程,可將原本需1000個文本token表示的數(shù)據(jù)壓縮為100個視覺token。



DeepSeek-OCR壓縮示意圖


02 光計算為何適配上下文壓縮


DeepSeek-OCR的光學(xué)壓縮依賴ViT圖像識別模型和CNN卷積運算兩大結(jié)構(gòu),關(guān)鍵環(huán)節(jié)是ViT中的注意力機制與CNN中卷積核對信息的過濾。


本質(zhì)上,這兩種機制都是信息聚合的計算過程,需要高效的硬件載體支撐。


ViT和CNN的底層計算以向量矩陣乘法和卷積為主,天然適配光計算的并行架構(gòu)。光計算芯片處理這類任務(wù)時,速度和能耗遠(yuǎn)優(yōu)于電芯片,且靈活性更高——內(nèi)部傳播路徑和計算邏輯可根據(jù)需求調(diào)整。


如下圖所示,將計算遷移至光域后,DeepEncoder經(jīng)光本位科技自主研發(fā)的128×128矩陣規(guī)模全域可編程存算一體光計算引擎加速,計算效率可提升100倍,能效比提升10倍。



DeepSeek-OCR光計算加速示意圖


光計算為何能實現(xiàn)高效加速和極致能效比?光本位科技測試發(fā)現(xiàn),在上下文壓縮這類類腦任務(wù)中,光計算相較GPU有壓倒性優(yōu)勢。


最直觀的優(yōu)勢是計算過程簡化:電芯片需完成卷積、縮放、池化等多步計算,而光計算中圖像信息可通過光學(xué)方式自然處理,上述過程在光傳播中即可完成,無需額外功耗。此外,光本位的存算一體架構(gòu)在處理批量任務(wù)時能保持“零靜態(tài)維持功耗”。



圖像信息輸入示意圖


光計算芯片的另一大優(yōu)勢是可擴(kuò)展性:擴(kuò)大陣列規(guī)模提升并行度、提高參數(shù)刷新頻率增強動態(tài)可編程性等都比電芯片更易實現(xiàn),且能耗更低。這種維度擴(kuò)展為長文本推理提供了超越傳統(tǒng)電計算的空間。


除圖像外,光本位科技還在嘗試將其他形式的信息編碼為不同頻率的光信號,輸入光計算芯片后,通過光路調(diào)制和耦合實現(xiàn)無額外能耗的計算。



其他形式信息輸入示意圖


03 光計算硬件:大模型的未來基座


DeepSeek-OCR發(fā)布后,DeepSeek提出探索基于人腦遺忘機制的算法,核心是高效提取特征、降低維度甚至融合特征。光本位科技認(rèn)為,這類算法的實現(xiàn)關(guān)鍵仍在于高效的特征處理。


為此,公司設(shè)想通過特殊光路結(jié)構(gòu)或異質(zhì)集成設(shè)計,結(jié)合相變材料(PCM)的非易失性,將存算一體架構(gòu)與類腦神經(jīng)元模擬結(jié)合,實現(xiàn)高效計算和類腦信息編碼存儲。


DeepSeek-OCR為光計算芯片的通用化設(shè)計提供了新思路,可能成為打通光計算硬件與大模型連接的突破點。


光本位科技計劃未來推出上下文壓縮專用硬件、AI任務(wù)專用硬件及配套軟件棧,與大模型接軌。這不僅能在現(xiàn)有模型上提升近百倍算力和超十倍能效比,還能為新計算范式提供高效基座。



光本位光計算平臺與DeepSeek-OCR融合前后示意圖


當(dāng)前,大模型的長文本推理對參數(shù)規(guī)模、帶寬和上下文壓縮能力提出新挑戰(zhàn)。傳統(tǒng)GPU受內(nèi)存墻和功耗密度限制,擴(kuò)展上下文時易受顯存和帶寬制約。光計算的大算力、高帶寬、低功耗優(yōu)勢,有望改變這一現(xiàn)狀。


光本位科技表示,未來將構(gòu)建全光大規(guī)模AI計算的下一代顛覆式平臺系統(tǒng),提供全場景覆蓋的全棧光計算解決方案。


本文來自微信公眾號“光本位”,作者:光本位研究院,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com