欧美精品99,欧美日韩中文一区二区,久久精品资源,日韩视频一区二区三区在线播放免费观看

登錄
首頁 > 今日新聞 > 任務(wù)級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

任務(wù)級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

發(fā)布時間:2025-07-20 15:46:08 發(fā)布用戶: 15210273549

現(xiàn)有Mobile/APP Agent的工作可以適應(yīng)實時環(huán)境,并執(zhí)行動作,但由于它們大部分都僅依賴于動作級獎勵(SFT或RL)。

而這些獎勵只能引導(dǎo)代理預(yù)測每一步中最佳的單一動作,因此難以應(yīng)對不斷變化的移動環(huán)境。

比如一句指令:“打開飛豬,進(jìn)入酒店套餐,進(jìn)入熱門直播,找到飛豬超級VIP,并關(guān)注主播”。Qwen2.5-VL-3B-Instruct在第二步失敗。

淘天集團算法技術(shù)-未來生活實驗室&點淘算法團隊聯(lián)合提出,采用多回合、任務(wù)導(dǎo)向的學(xué)習(xí)方式,結(jié)合在線學(xué)習(xí)和軌跡糾錯,也許能提高Agent的適應(yīng)性和探索能力。

他們提出了個具有任務(wù)級獎勵(Task-level Reward)的交互式強化學(xué)習(xí)框架,即Mobile-R1。

為了確保訓(xùn)練的穩(wěn)定性,團隊提出了一個三階段訓(xùn)練過程:格式微調(diào)、動作級訓(xùn)練和任務(wù)級訓(xùn)練。此外引入新的中文基準(zhǔn)和高質(zhì)量軌跡數(shù)據(jù)集,證明了該方法在移動代理領(lǐng)域的有效性。

結(jié)果Mobile-R1順利地完成了這一任務(wù)。

軌跡數(shù)據(jù)集

團隊使用Qwen2.5-VL-3B執(zhí)行一系列任務(wù)獲得初始軌跡,并人工標(biāo)注這些初始軌跡,得到了高質(zhì)量的軌跡數(shù)據(jù)集。

其構(gòu)造可以分為數(shù)據(jù)收集和軌跡標(biāo)注兩部分,最終得到了4,635條高質(zhì)量的人工標(biāo)注軌跡,包含24,521個單步數(shù)據(jù)。

軌跡數(shù)據(jù)集構(gòu)造流程

首先,選擇了28個中國移動應(yīng)用程序,通過人工設(shè)計和自動生成相結(jié)合的方法創(chuàng)建了多樣化的任務(wù)指令,隨后統(tǒng)一經(jīng)過人工審核,去除了部分不合理指令。在使用Qwen2.5-VL-3B模型執(zhí)行這些指令后,成功收集了大量動作執(zhí)行軌跡,軌跡中的每一步都包含模型輸出的思考,需要執(zhí)行的動作以及對應(yīng)的工具調(diào)用。

得到軌跡后,針對模型的輸出做了以下三個維度的標(biāo)注:

  • 邏輯思考:將所有思考修正為“當(dāng)前狀態(tài)+下一步的動作+動作目的”的格式,比如“當(dāng)前在手機主屏(當(dāng)前狀態(tài)),下一步是點擊淘寶圖標(biāo)(下一步動作)來進(jìn)入淘寶(動作目的)”。如果原思考內(nèi)容錯誤也會人工標(biāo)注者會按照該格式重寫思考。

  • 清晰動作:清晰動作是單步可執(zhí)行操作的一句話描述,動作應(yīng)符合思考的內(nèi)容并且可推動任務(wù)的完成。

  • 準(zhǔn)確調(diào)用:人工標(biāo)注者會修正錯誤的操作調(diào)用,包括類型錯誤以及參數(shù)錯誤。

訓(xùn)練流程

訓(xùn)練流程由三個階段構(gòu)成,基于Qwen2.5-VL-3B。這三個階段分別是初始格式微調(diào)、動作級在線訓(xùn)練和任務(wù)級在線訓(xùn)練。

Stage1:初始格式微調(diào)

在第一階段,對模型進(jìn)行初始格式微調(diào)。這一步是通過監(jiān)督微調(diào)(SFT)的方式進(jìn)行的,使用的是之前人工標(biāo)注的高質(zhì)量軌跡數(shù)據(jù)集。在微調(diào)過程中,模型不僅會學(xué)習(xí)如何將用戶的指令與當(dāng)前的GUI狀態(tài)對應(yīng)起來,還會調(diào)整輸出格式以符合預(yù)期的結(jié)構(gòu),包括邏輯思考、清晰動作和準(zhǔn)確調(diào)用。

Stage2:動作級在線訓(xùn)練

在第二階段,模型通過群體相對策略優(yōu)化(GRPO)進(jìn)行動作級在線訓(xùn)練。此階段使用動作級獎勵(Action-level Reward)來評估每個動作的正確性,同時確保輸出格式的完整性。動作級獎勵由可驗證動作獎勵和格式獎勵組成,其中可驗證動作獎勵能夠量化動作的正確性,而格式獎勵則確保模型輸出是結(jié)構(gòu)化、可解釋的。

  • 動作級獎勵。1)對于基于坐標(biāo)的動作(如點擊、滑動),如果預(yù)測的坐標(biāo)落在目標(biāo)GUI元素的真實邊界框內(nèi),則獎勵為1,否則為0。2)對于非坐標(biāo)的動作(如輸入文本),如果預(yù)測的動作或參數(shù)與真實值完全匹配,則獎勵為1,否則為0。

  • 格式獎勵。格式獎勵促使模型生成符合標(biāo)簽和結(jié)構(gòu)要求的輸出,確保響應(yīng)的邏輯思考、動作以及工具調(diào)用的格式化。

Stage3:任務(wù)級在線訓(xùn)練

在第三階段,通過多步驟任務(wù)級在線訓(xùn)練來提高模型的泛化能力和探索能力。

在動態(tài)的移動環(huán)境中,模型需要進(jìn)行自由探索和錯誤糾正,因此我們將問題定義為馬爾可夫決策過程,以允許多回合的互動。

任務(wù)級獎勵由格式獎勵和軌跡級獎勵組成,旨在鼓勵模型在整個軌跡中保持對響應(yīng)格式的遵循,同時評估任務(wù)的完成情況。

  • 軌跡級獎勵。軌跡級獎勵使用外部高精度的MLLM,GPT-4o來評估整個歷史互動軌跡,確保步驟和動作的一致性以及任務(wù)的完成情況。

  • 格式獎勵。格式獎勵在此階段仍然起著重要作用,為整個軌跡計算平均格式獎勵,并通過[-1, 1]的范圍來對錯誤施加更嚴(yán)格的懲罰,以增強輸出的精確度。

訓(xùn)練的部分階段在淘天自研的強化學(xué)習(xí)框架ROLL上進(jìn)行實驗。

實驗結(jié)果

實驗中,主要評估了模型在自定義benchmark上的性能,并進(jìn)行了針對模型泛化能力的魯棒性分析,以驗證Mobile-R1的表現(xiàn)。

整體實驗結(jié)果,粗體表示最佳結(jié)果,下劃線表示次優(yōu)結(jié)果

結(jié)果顯示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上表現(xiàn)類似。

其中,AgentCPM-8B 由于專為中國移動生態(tài)系統(tǒng)優(yōu)化,因此在中文場景中表現(xiàn)優(yōu)異。更為顯著的是,Mobile-R1在所有基準(zhǔn)中表現(xiàn)最佳,任務(wù)成功率達(dá)到49.40,比最優(yōu)秀的baseline model高出將近20點。

Stage 3的訓(xùn)練進(jìn)一步增強了Mobile-R1的表現(xiàn),其成功率比只有階段1和階段2訓(xùn)練的模型高出1.4點,這得益于任務(wù)級GRPO的有效應(yīng)用。

特別值得注意的是,通過階段1和階段2的訓(xùn)練,Qwen2.5-VL-3B模型的表現(xiàn)超越了其標(biāo)準(zhǔn)版本,并在多項指標(biāo)上領(lǐng)先于其他基準(zhǔn)模型,突顯了動作級和任務(wù)級獎勵機制的重要性。

Stage 3訓(xùn)練的獎勵曲線

此過程中,Stage 3的獎勵分?jǐn)?shù)顯示出在前四個訓(xùn)練步驟中穩(wěn)步增長,表明學(xué)習(xí)過程是有效的。然而,在步驟5到10之間,獎勵有所下降,這可能是由于策略過于激進(jìn)或探政策的改變導(dǎo)致的不穩(wěn)定性。最終從步驟11開始,獎勵再次上升,這表明策略得到了有效的優(yōu)化和改進(jìn)。

Mobile-R1在處理未見應(yīng)用時表現(xiàn)出良好的泛化性,而其他模型在泛化能力上存在挑戰(zhàn)。Mobile-R1的優(yōu)異表現(xiàn)主要歸功于Stage 3的訓(xùn)練,這一階段有效增強了模型的魯棒性和適應(yīng)性。

魯棒性分析結(jié)果,粗體表示最佳結(jié)果

最后總結(jié),在本文中,Mobile-R1通過在動態(tài)環(huán)境中整合交互式強化學(xué)習(xí)與任務(wù)級獎勵,顯著提升了基于視覺語言模型(VLM)的移動代理的能力。

通過包括格式微調(diào)、動作級GRPO訓(xùn)練和任務(wù)級GRPO訓(xùn)練在內(nèi)的三階段訓(xùn)練過程,克服了以往方法僅依賴單一動作預(yù)測的局限性。

實驗結(jié)果表明,Mobile-R1在所有指標(biāo)上都超越了所有基準(zhǔn)。此外,團隊計劃全面開源相關(guān)資源以促進(jìn)進(jìn)一步的研究。

Copyright 2019-2026 微推堂 版權(quán)所有  京ICP備2019123967號
欧美精品99,欧美日韩中文一区二区,久久精品资源,日韩视频一区二区三区在线播放免费观看
美女国产一区二区三区| 亚洲a成人v| 精品视频一区二区三区四区五区 | 中文字幕高清在线播放| 国产人成精品一区二区三| 国产日韩欧美一区| 精品亚洲成人| 黑丝一区二区三区| 日韩成人午夜精品| 四虎成人av| 日韩精品一区第一页| 日韩av中文字幕一区二区三区| 红杏一区二区三区| 蜜桃视频免费观看一区| 国产在线视频欧美一区| 乱人伦精品视频在线观看| 国产精品对白久久久久粗| 婷婷亚洲五月| 视频一区视频二区在线观看| 国产乱码精品一区二区三区四区 | 成年男女免费视频网站不卡| 久久一区二区三区喷水| 日韩有吗在线观看| 久久精品免费看| 蘑菇福利视频一区播放| 国产suv精品一区| 国产精品一级| 亚洲一区欧美二区| 国产一区二区三区精品在线观看| 奶水喷射视频一区| 欧美日韩免费观看视频| 精品视频自拍| 日韩精品免费视频人成| 日韩精品一区二区三区免费观看| 国产精品网站在线看| 黄色亚洲免费| 久久精品亚洲人成影院 | 黄色不卡一区| 国产粉嫩在线观看| 国产精品传媒麻豆hd| 亚洲久久一区| 欧美在线综合| 美日韩精品视频| 狠狠爱成人网| 欧美一区三区| 国产91一区| 激情久久婷婷| 欧美高清不卡| 亚洲天堂久久| 欧美精品一区二区三区精品| 麻豆精品久久久| 日韩精品视频中文字幕| 日韩1区2区3区| 日本精品另类| 国产欧美自拍| 国产剧情一区| 精品视频黄色| 高清久久一区| 色一区二区三区| 久久精品主播| 亚洲一区中文| 91欧美极品| 国产精品一区二区精品| 欧美激情一区| av中文字幕在线观看第一页| 高清精品久久| 激情综合亚洲| 日本不卡视频一二三区| 久久国产免费看| 国产va免费精品观看精品视频| 日韩视频网站在线观看| 亚洲国产成人精品女人| 老鸭窝毛片一区二区三区| 久久国产免费看| 久久久久久久久久久9不雅视频| 午夜日韩av| 麻豆精品一区二区综合av| 欧美二区视频| 欧美日韩一区二区国产| 国产一区二区三区四区| 91亚洲自偷观看高清| 久久精品1区| 亚洲精品日韩久久| 欧美黄色网页| 欧美三级第一页| 日本高清不卡一区二区三区视频| 免费在线成人网| 日韩免费一区| 免费一区二区三区在线视频| 欧美在线综合| 日韩免费看片| 国产高清精品二区| 亚洲一区免费| 久久精品动漫| 久久国产精品色av免费看| 亚洲特色特黄| jizzjizz中国精品麻豆| 国产精品成人自拍| 日韩国产成人精品| 亚洲三级在线| 蜜臀久久99精品久久久画质超高清| 午夜精品成人av| 日本а中文在线天堂| 成人在线免费观看网站| 精品少妇av| 97精品视频在线看| 国产美女高潮在线观看| 日韩欧美午夜| 亚洲四虎影院| 久久精品成人| 日韩免费一区| 91精品国产乱码久久久久久久| av资源中文在线| 国产精品国产一区| 亚洲www啪成人一区二区| 欧美日韩视频免费观看| 日本久久成人网| 久久免费大视频| 免费人成精品欧美精品| 日韩av中文字幕一区二区三区| 国产女人18毛片水真多18精品| 欧美成人国产| av日韩中文| 日本久久精品| sm久久捆绑调教精品一区| 91欧美极品| 欧美日韩91| 国产精久久久| 国产精品调教视频| 国产九九精品| 欧美黑人做爰爽爽爽| 欧美一区二区三区久久精品| 日本少妇精品亚洲第一区| 欧美日韩精品一区二区三区视频 | 亚洲免费黄色| 亚洲深夜福利在线观看| 亚洲精品日韩久久| 国产精品亚洲人成在99www| 日本免费新一区视频| 国产亚洲人成a在线v网站| 欧美激情aⅴ一区二区三区 | 久久99精品久久久久久园产越南| 91精品尤物| 福利一区视频| 午夜欧美精品| 欧美日韩亚洲三区| 国内精品伊人| 国产综合欧美| 人人精品人人爱| 91精品尤物| 99热精品久久| 在线视频亚洲欧美中文| 国产精品v亚洲精品v日韩精品| 欧美xxxx中国| 在线观看一区| 日韩av免费大片| 91久久久久| 麻豆国产欧美一区二区三区| 久久精品av| 美女视频黄久久| 国产一区观看| 久久国产三级| 日韩二区在线观看| 久久中文在线| 日韩在线看片| 男女性色大片免费观看一区二区| 国产精品欧美日韩一区| 日韩成人综合| 影音先锋久久精品| 国产一区2区在线观看| 亚洲免费成人| 欧美丰满日韩| 色婷婷成人网| 激情欧美国产欧美| 精品视频一区二区三区四区五区 | 欧美日韩激情在线一区二区三区| 欧美激情在线精品一区二区三区| 国产亚洲福利| 啪啪国产精品| 久久久国产精品网站| 日本国产亚洲| 国产精品日本| 999久久久91| 91一区二区| 三上亚洲一区二区| 国产激情精品一区二区三区| 久久av一区| 亚洲国产日韩欧美在线| 麻豆国产在线| 亚洲欧洲高清| av综合电影网站| 日韩欧美自拍| 久久男人天堂| 97se综合| 精品丝袜在线| 青青久久av| 九一成人免费视频| 一区在线视频观看| 中文亚洲欧美| 亚洲精品在线二区|