長期以來,多模態(tài)代碼生成(Multimodal Code Generation)的訓(xùn)練嚴(yán)重依賴于特定任務(wù)的監(jiān)督微調(diào)(SFT)。盡管這種范式在 Chart-to-code 等單一任務(wù)上取得了顯著成功 ,但其 “狹隘的訓(xùn)練范圍” 從根本上限制了模型的泛化能力,阻礙了通用視覺代碼智能(Generalized VIsioN Code Intelligence)的發(fā)展 。同時(shí),「SFT-only」的范式在確保代碼可執(zhí)行性和高視覺保真度方面存在顯著瓶頸 。
在此背景下,中科院 & 美團(tuán)研究團(tuán)隊(duì)推出了 VinciCoder,一個(gè)旨在打破 SFT 瓶頸的統(tǒng)一多模態(tài)代碼生成模型。VinciCoder首次將強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)機(jī)制從文本域轉(zhuǎn)向視覺域,提出視覺強(qiáng)化學(xué)習(xí)(ViRL),專攻 SFT 無法解決的視覺保真度難題。
本文提出的系統(tǒng)性框架VinciCoder,通過 “大規(guī)模 SFT + 粗細(xì)粒度 ViRL” 的兩階段策略,有效統(tǒng)一了從圖表、網(wǎng)頁、SVG 到科學(xué)繪圖(LaTeX、化學(xué)分子)等多樣化代碼生成任務(wù) 。
(相關(guān)資料圖)
數(shù)據(jù)代碼模型權(quán)重已開源。
核心創(chuàng)新與技術(shù)突破
該論文同樣對傳統(tǒng) SFT 范式的局限性進(jìn)行了深入分析,發(fā)現(xiàn)其關(guān)鍵問題在于訓(xùn)練目標(biāo)與最終任務(wù)之間存在 “視覺鴻溝”:
這種 “視覺 - 代碼” 監(jiān)督的缺失,直接導(dǎo)致了兩個(gè)關(guān)鍵問題:
考慮到 SFT 的根本局限性,研究者認(rèn)為必須引入一個(gè)能夠提供全局視覺反饋的機(jī)制。然而,傳統(tǒng)的 RL 方法依賴難以泛化的 “基于規(guī)則的文本獎(jiǎng)勵(lì)” 。VinciCoder 的破局點(diǎn)在于 ——將獎(jiǎng)勵(lì)機(jī)制從文本域徹底轉(zhuǎn)向視覺域
VinciCoder 的核心思路是:用大規(guī)模、多樣化的 SFT 構(gòu)建強(qiáng)大的代碼基礎(chǔ)能力 ,再通過創(chuàng)新的 ViRL 策略專門優(yōu)化 SFT 無法觸及的視覺保真度和可執(zhí)行性 。訓(xùn)練框架由「1.6M 大規(guī)模 SFT 階段」和「42k 粗細(xì)粒度 ViRL 階段」兩部分組成 ,核心是通過兩階段協(xié)作,同時(shí)實(shí)現(xiàn)強(qiáng)大的代碼理解與高保真的視覺對齊。
1. 大規(guī)模 SFT 語料庫與代碼優(yōu)化任務(wù)
研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)包含1.6M 圖像 - 代碼對的大規(guī)模監(jiān)督微調(diào)(SFT)語料庫 。該語料庫不僅覆蓋了直接代碼生成任務(wù),還引入 “視覺代碼優(yōu)化” 的新任務(wù) 。在這項(xiàng)任務(wù)中,模型會接收到一個(gè)目標(biāo)圖像和一個(gè) “有缺陷” 的代碼片段(包含邏輯錯(cuò)誤或只能部分渲染)。模型的目標(biāo)是修正這段代碼,使其視覺輸出與目標(biāo)圖像精確對齊 。這一設(shè)計(jì)極大地提升了模型在代碼層面的糾錯(cuò)和優(yōu)化能力,為后續(xù)的強(qiáng)化學(xué)習(xí)階段奠定了堅(jiān)實(shí)基礎(chǔ) 。
2. 從 “文本獎(jiǎng)勵(lì)” 到 “視覺獎(jiǎng)勵(lì)”:粗細(xì)粒度 ViRL 框架
傳統(tǒng) SFT 訓(xùn)練在多模態(tài)代碼生成上存在根本缺陷:它缺乏 “視覺 - 代碼” 的閉環(huán)反饋 ,且無法保證代碼的全局可執(zhí)行性 。
為解決此問題,VinciCoder 引入了視覺強(qiáng)化學(xué)習(xí) (ViRL) 框架。該框架摒棄了傳統(tǒng)強(qiáng)化學(xué)習(xí)中脆弱的、基于規(guī)則的 “文本獎(jiǎng)勵(lì)” ,轉(zhuǎn)而從視覺直接獲取獎(jiǎng)勵(lì)信號 。
其核心突破在于一套粗 - 細(xì)粒度(Coarse-to-fine)視覺獎(jiǎng)勵(lì)機(jī)制:
據(jù)我們所知,VinciCoder 是第一個(gè)應(yīng)用強(qiáng)化學(xué)習(xí)(RL)來實(shí)現(xiàn)統(tǒng)一視覺代碼生成領(lǐng)域中 “跨領(lǐng)域視覺保真度” 提升的視覺語言模型
實(shí)驗(yàn)結(jié)果與性能表現(xiàn)
論文在五大多模態(tài)代碼生成基準(zhǔn)上進(jìn)行了全面實(shí)驗(yàn),對比了包括 Qwen、InternVL 等開源模型以及 Gemini-2.5-Pro、Claude-4.5、GPT-5 等閉源模型 ,核心結(jié)果如下:
實(shí)驗(yàn)結(jié)果令人矚目:VinciCoder 在多個(gè)主流多模態(tài)代碼生成基準(zhǔn)上均取得了卓越表現(xiàn)。
研究意義與應(yīng)用前景
VinciCoder 的研究不僅在技術(shù)上取得了重大突破,也為多模態(tài)代碼生成領(lǐng)域提供了全新的研究范式:
結(jié)論
VinciCoder 的核心價(jià)值并非單純地堆砌 SFT 數(shù)據(jù),而是通過 “SFT + 粗細(xì)粒度 ViRL” 的組合,證明了 “以視覺反饋指導(dǎo)代碼生成” 的可行性與優(yōu)越性。這一思路不僅解決了傳統(tǒng) SFT 范式在可執(zhí)行性與視覺保真度上的痛點(diǎn),也為后續(xù)通用多模態(tài)智能體的研發(fā)提供了新的思路。
在總體思路上,該論文的思路與 R1-Style 方法高度相關(guān),都驗(yàn)證了強(qiáng)化學(xué)習(xí)在提升基礎(chǔ)模型高級能力上的巨大潛力。VinciCoder 的成功探索表明,RL 不僅可以用于優(yōu)化數(shù)學(xué)推理等文本任務(wù),更可以作為連接 “視覺” 與 “代碼” 兩大模態(tài)的橋梁,解決 SFT 無法企及的跨模態(tài)對齊難題。
更多細(xì)節(jié)請參閱原論文。
免責(zé)聲明:本網(wǎng)站所有信息,并不代表本站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé),投資者據(jù)此操作,風(fēng)險(xiǎn)請自擔(dān)。
勇士24記三分創(chuàng)新高,穆迪一戰(zhàn)比肩水花,科爾正式表態(tài),庫里,勇士,衛(wèi)斯理·穆迪,赫爾穆特·科爾
中國廣核:招遠(yuǎn)1號機(jī)組即將開始全面建設(shè)每經(jīng)AI快訊,11月17日,中國廣核公告,公司子公司山東招遠(yuǎn)核電有限公司的招遠(yuǎn)1號機(jī)組即將于2025年11月18日進(jìn)行核反應(yīng)堆主廠房第一罐混凝土澆筑(FCD),.
日前,國家能源局發(fā)布關(guān)于推進(jìn)煤炭與新能源融合發(fā)展的指導(dǎo)意見,明確加快發(fā)展礦區(qū)光伏風(fēng)電產(chǎn)業(yè)、積極推動(dòng)礦區(qū)用能清潔替代、穩(wěn)步推進(jìn)礦區(qū)可再生能源供暖制冷等七項(xiàng)主要
賈躍亭正加速清償中國法下的債務(wù),「下周回國」又提上日程了!,股權(quán),信托,樂視,賈躍亭,債權(quán)人小組
2025年11月17日江蘇太倉玖龍紙業(yè),A級箱板紙收購價(jià)格保持平穩(wěn),廢紙收購價(jià)格暫無調(diào)整,調(diào)整后執(zhí)行到廠價(jià)格1980元/噸。
11月14日甲醇外盤市場收盤價(jià)格下跌:CFR東南亞甲醇市場收于318.5-319.5美元/噸,跌3美元/噸。FOB美國海灣甲醇市場收于89.5-90.5美分/加侖;歐洲FOB鹿特丹甲醇市場收于265.
VinciCoder:多模態(tài)統(tǒng)一代碼生成框架和視覺反饋強(qiáng)化學(xué)習(xí),代碼,信號,模態(tài),新模型,強(qiáng)化學(xué)習(xí),視覺反饋
直通世界杯!世預(yù)賽-B費(fèi)戴帽葡萄牙9-1亞美尼亞,內(nèi)維斯,亞美尼亞,波蘭葡萄牙,世界杯預(yù)選賽,塞爾希奧·拉莫斯·加西亞
2025年11月17日紹興市蔬菜果品批發(fā)交易市場有限公司價(jià)格行情
2025年11月17日遼寧朝陽市果菜批發(fā)市場價(jià)格行情
這種當(dāng)季水果維生素C含量竟是蘋果的60倍?!還能助眠、保護(hù)心血管、提升免疫力又到了吃冬棗的季節(jié)冬棗口感脆甜又營養(yǎng)有助于提高免疫力、改善睡眠質(zhì)量美容美白、緩解焦慮
上證報(bào)中國證券網(wǎng)訊11月17日,A股三大股指早盤震蕩調(diào)整。截至午間收盤,滬指跌0.43%,深證成指跌0.35%,創(chuàng)業(yè)板指跌0.80%。盤面上看,貴金屬、電源設(shè)備、生物醫(yī)藥等板塊跌幅居前;福建、鋰礦、A
財(cái)聯(lián)社11月17日訊(編輯黃君芝)素有“華爾街一哥”之稱的摩根大通CEO杰米·戴蒙(JamieDimon)近日警告稱,信貸市場可能正在醞釀麻煩。當(dāng)時(shí)他形象地指出,“如果你看到一只蟑螂,往往意
云南某鋼廠11月招標(biāo)硅錳定價(jià)5770元/噸,采購量1500噸,現(xiàn)金含稅到廠。PriceSeek評析錳硅,多空評分:1.5云南某鋼廠招標(biāo)硅錳定價(jià)5770元/噸,采購量1500噸,現(xiàn)金含稅到廠。參考202
高盛研究報(bào)告引述建行表示,2026年凈息差將持續(xù)面臨下行壓力,主要因貸款重新訂價(jià),不過隨著貸款定價(jià)漸趨穩(wěn)定及存款成本節(jié)約效益顯現(xiàn),預(yù)期下降速度將會收窄。
加圖索:很憤怒,很擔(dān)憂,意大利不能這樣崩掉,意大利,利物浦,歐冠聯(lián)賽階段,詹納羅·加圖索
發(fā)生什么了?尼日利亞主帥和民主剛果主帥在賽后互相推搡,世界杯,非洲區(qū),尼日利亞,民主剛果,點(diǎn)球大戰(zhàn),冠軍獎(jiǎng)杯
游客小朋友在體驗(yàn)打稻谷。俯瞰換上了金黃盛裝的牙胡梯田。近日,五指山市牙胡梯田景區(qū)核心區(qū)1400多畝稻田進(jìn)入成熟期。11月15日,五指山市毛陽鎮(zhèn)2025年晚造開鐮
11月17日,生意社丁腈橡膠基準(zhǔn)價(jià)為16300.00元/噸,與本月初(16325.00元/噸)相比,下降了0.15%。丁腈橡膠年度統(tǒng)計(jì)(2024-11-17--2025-11-17,元/噸)當(dāng)日價(jià)16

起重機(jī)作為一種高度復(fù)雜的運(yùn)輸系統(tǒng),其運(yùn)行涉及多個(gè)運(yùn)動(dòng)維度的精確協(xié)調(diào)。在典型的起重機(jī)操作中,起升機(jī)構(gòu)負(fù)責(zé)垂直方向的載荷移動(dòng),大車機(jī)構(gòu)實(shí)現(xiàn)水平方向的整體位移,而小車機(jī)構(gòu)則完成精確的定位調(diào)整。這些運(yùn)動(dòng)往往需要同時(shí)或交替進(jìn)行,這就要求驅(qū)動(dòng)系統(tǒng)中的減速機(jī)必須具備出色的負(fù)載能力和精準(zhǔn)的控制性能。針對起重機(jī)系統(tǒng)的特殊需求,諾...

鄉(xiāng)村振興有效銜接考核評估反饋問題整改工作開展以來,海東市樂都區(qū)把整

村民送水給施工人員。收邊。運(yùn)輸混凝土。施工現(xiàn)場。施工現(xiàn)場。農(nóng)村道路