五年磨一劍:Transformers v5 重磅發(fā)布,全面擁抱 PyTorch 開啟新紀(jì)元
剛剛,Transformers v5 發(fā)布首個(gè) RC(候選) 版本 v5.0.0rc0。

GitHub:https://github.com/huggingface/transformers/releases/tag/v5.0.0rc0
這次更新標(biāo)志著這一全球最流行的 AI 基礎(chǔ)設(shè)施庫(kù),正式跨越了從 v4 到 v5 長(zhǎng)達(dá)五年的技術(shù)周期。
作為 Hugging Face 最核心的開源項(xiàng)目,自 2020 年 11 月 v4 版本發(fā)布以來,Transformers 的日下載量已從當(dāng)時(shí)的 2 萬次激增至如今的超過300 萬次,總安裝量突破12 億次。
它定義了業(yè)界如何使用模型,支持的架構(gòu)也從最初的 40 個(gè)擴(kuò)展至超過400 個(gè),涵蓋了文本、視覺、音頻及多模態(tài)領(lǐng)域,社區(qū)貢獻(xiàn)的模型權(quán)重更是超過75 萬個(gè),覆蓋文本、視覺、音頻及多模態(tài)等多個(gè)領(lǐng)域。
官方表示,在人工智能領(lǐng)域,「重塑」是保持長(zhǎng)盛不衰的關(guān)鍵。Transformers 作為生態(tài)系統(tǒng)中領(lǐng)先的模型定義庫(kù),需要不斷演進(jìn)并調(diào)整庫(kù)的形態(tài),以保持其相關(guān)性。
v5 版本將 PyTorch 確立為唯一核心后端,并聚焦于四大維度的進(jìn)化:極致的簡(jiǎn)潔性、從微調(diào)邁向預(yù)訓(xùn)練、與高性能推理引擎的互操作性,以及將量化提升為核心功能。
簡(jiǎn)潔性
團(tuán)隊(duì)的首要關(guān)注點(diǎn)是簡(jiǎn)潔性。
Hugging Face 希望模型的集成方式是干凈、清晰的。簡(jiǎn)潔性能夠帶來更廣泛的標(biāo)準(zhǔn)化、更強(qiáng)的通用性,以及更全面的生態(tài)支持。
新增模型
從本質(zhì)上講,Transformers 始終是一個(gè)模型架構(gòu)工具箱。Hugging Face 目標(biāo)是收錄所有最新的模型架構(gòu),并成為模型定義的唯一可信來源。
在過去 5 年里,平均每周新增 1–3 個(gè)新模型,時(shí)間線如下圖所示:

模塊化方法
在過去一年里,Hugging Face 大力推進(jìn)模塊化設(shè)計(jì)。這種方式使維護(hù)更簡(jiǎn)單、集成速度更快,并能促進(jìn)社區(qū)之間的協(xié)作。

盡管 Hugging Face 始終尊崇「一個(gè)模型,一個(gè)文件」的哲學(xué),但他們?nèi)栽诓粩嘁胍恍┏橄髮?,以?jiǎn)化通用輔助函數(shù)的管理。這方面最典型的例子就是引入了 AttentionInterface,它為注意力機(jī)制提供了一個(gè)集中的抽象層。Eager 方法將保留在建模文件中;而其他方法,如 FA1/2/3 (FlashAttention)、FlexAttention 或 SDPA,則被移至該接口中。
模型轉(zhuǎn)換工具
Hugging Face 也正在大力構(gòu)建工具,以幫助識(shí)別某個(gè)新模型與現(xiàn)有模型架構(gòu)之間的相似性。該功能通過機(jī)器學(xué)習(xí)來發(fā)現(xiàn)不同模型文件之間的代碼相似度。
進(jìn)一步來說,Hugging Face 希望自動(dòng)化模型轉(zhuǎn)換流程:當(dāng)有新模型需要集成到 Transformers 中時(shí),系統(tǒng)將自動(dòng)創(chuàng)建一個(gè)草稿 PR(Pull Request),將其轉(zhuǎn)換成符合 Transformers 格式的版本。
這一流程將減少大量手動(dòng)工作,并確保整體的一致性。
代碼精簡(jiǎn)
精簡(jiǎn) Modeling & Tokenization/Processing 文件
Hugging Face 對(duì)建模文件和標(biāo)注相關(guān)文件也進(jìn)行了大規(guī)模重構(gòu)。
得益于前文提到的模塊化方法,加上對(duì)不同模型之間的統(tǒng)一標(biāo)準(zhǔn)化,建模文件得到了顯著改善。標(biāo)準(zhǔn)化讓許多不真正屬于模型本體的工具都被抽象出去,使建模代碼只保留模型前向 / 反向傳播所需的核心部分。
與此同時(shí),v5 也在簡(jiǎn)化 tokenization & processing 文件:未來將只關(guān)注 tokenizers 后端,并移除 Fast 和 Slow tokenizer 這兩個(gè)概念。
圖像處理器今后也將只保留 fast 版本,這些版本依賴 torchvision 作為后端。
最后,v5 將逐步停止對(duì) Flax / TensorFlow 的支持,轉(zhuǎn)而專注于 PyTorch 作為唯一后端;不過團(tuán)隊(duì)也在與 JAX 生態(tài)合作伙伴協(xié)作,以確保模型能夠與該生態(tài)兼容。
PyTorch 基金會(huì)執(zhí)行董事、Linux 基金會(huì) AI 部總經(jīng)理 Matt White 表示:隨著 v5 版本的發(fā)布,Transformers 正全面轉(zhuǎn)向 PyTorch。
訓(xùn)練
關(guān)于 v5 版本的訓(xùn)練仍然是團(tuán)隊(duì)工作的重點(diǎn),之前 Hugging Face 專注于微調(diào)而不是大規(guī)模預(yù)訓(xùn)練以及完整訓(xùn)練,v5 加大了對(duì)后者的支持力度。
預(yù)訓(xùn)練
為了支持預(yù)訓(xùn)練,Hugging Face 重新設(shè)計(jì)了模型初始化方式,同時(shí)也加入了對(duì)前向與反向傳播優(yōu)化算子的支持。目前,v5 已經(jīng)與 torchtitan、megatron、nanotron 等工具實(shí)現(xiàn)了更廣泛的兼容。
微調(diào)與后訓(xùn)練
Hugging Face 表示將繼續(xù)與 Python 生態(tài)系統(tǒng)中的所有微調(diào)工具保持緊密合作。同時(shí),Hugging Face 也在與 JAX 生態(tài)中的 MaxText 等工具兼容,以確保他們的框架與 Transformers 之間具備良好的互操作性。
現(xiàn)在,所有微調(diào)和后訓(xùn)練工具都可以依賴 Transformers 作為模型定義的來源;這也進(jìn)一步可以通過 OpenEnv 或 Prime Environment Hub 來支持更多的 Agentic 使用場(chǎng)景。
推理
推理也是 v5 優(yōu)化的重點(diǎn)方向之一,Hugging Face 帶來了多項(xiàng)范式級(jí)的更新:包括專用內(nèi)核、更干凈的默認(rèn)設(shè)置、新的 API,以及優(yōu)化對(duì)推理引擎的支持。
此外,和訓(xùn)練階段類似,Hugging Face 也投入了大量精力來封裝推理內(nèi)核。
在這項(xiàng)工作之外,他們還為推理新增了兩個(gè)專用 API:
連續(xù)批處理和 paged attention 機(jī)制。這些功能已經(jīng)在內(nèi)部開始使用,之后會(huì)有使用指南放出。
全新的 transformers serve 服務(wù)系統(tǒng),可部署一個(gè)兼容 OpenAI API 的服務(wù)器,用于部署 Transformers 模型。
在 v5 的更新中,Hugging Face 明確強(qiáng)化了對(duì)推理場(chǎng)景的支持,尤其是像模型評(píng)估這類需要同時(shí)處理大量請(qǐng)求的任務(wù)。
值得注意的是,Transformers v5 的定位并不是取代 vLLM、SGLang、TensorRT-LLM 這樣的專業(yè)推理引擎。相反,他們的目標(biāo)是與這些引擎實(shí)現(xiàn)兼容。
生產(chǎn)環(huán)境
本地部署
團(tuán)隊(duì)與最流行的推理引擎緊密合作,從而能夠?qū)?Transformers 作為后端使用。這帶來了顯著的價(jià)值:只要某個(gè)模型被添加到 Transformers 中,它就會(huì)立即在這些推理引擎中可用,同時(shí)還能充分利用各引擎的優(yōu)勢(shì),例如推理優(yōu)化、專用內(nèi)核、動(dòng)態(tài)批處理等。
另外,Hugging Face 也在與 ONNXRuntime、llama.cpp 和 MLX 展開密切合作,以確保 Transformers 與這些建模庫(kù)之間具有良好的互操作性。例如,得益于社區(qū)的大量努力,現(xiàn)在在 Transformers 中加載 GGUF 文件以進(jìn)行進(jìn)一步微調(diào)變得非常簡(jiǎn)單。反之,也可以輕松地將 Transformers 模型轉(zhuǎn)換為 GGUF 文件,以便在 llama.cpp 中使用。
對(duì)于 MLX 而言也是如此,transformers 的 safetensors 文件可以直接兼容 MLX 的模型。
最后,Hugging Face 也在推動(dòng)本地推理的邊界,并與 executorch 團(tuán)隊(duì)緊密合作,讓 Transformers 模型能夠在設(shè)備端直接運(yùn)行,對(duì)多模態(tài)模型(視覺、音頻)的支持也在快速擴(kuò)展中。
量化
量化正迅速成為當(dāng)代前沿模型開發(fā)的標(biāo)準(zhǔn),許多 SOTA 模型如今都以低精度格式發(fā)布,例如 8-bit 和 4-bit(如 gpt-oss、Kimi-K2、DeepSeek-R1)。
緊跟技術(shù)前沿,v5 將量化作為 Transformers 的核心能力之一,確保它能夠與主要功能完全兼容,并為訓(xùn)練與推理提供一個(gè)可靠的量化框架。
參考鏈接:https://huggingface.co/blog/transformers-v5
本文來自微信公眾號(hào)“機(jī)器之心”,編輯:+0、陳陳,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



