国外一级黄色片-国外成人在线视频-国外成人在线视频网站-国外成人免费视频-一色综合-一线高清视频在线观看www国产

首頁 > 實用技巧 > 干貨教程 > 探究P-GPU/D-CPU模式:與純CPU方案的性能差異及適用性分析

探究P-GPU/D-CPU模式:與純CPU方案的性能差異及適用性分析

發布時間:2025-06-17 20:09:29
上一篇文章中,我們已明確P-GPU/D-CPU模式相較于PD-GPU模式時,Decode階段性能會顯著下降。但P-GPU/D-CPU模式通過GPU快速完成Prefill階段,從而能快速釋放GPU資源以處理更多新請求的Prefill階段,可能提升系統整體的TTFT(首個詞元生成時間)和并發能力,在特定場景下仍具應用價值。
 
這些討論默認GPU參與是既定事實。 但在完整的技術選型和成本效益分析中,不能僅停留在“有GPU時怎么做得更好”。一個更根本的問題是:當我們考慮將Prefill和Decode階段完全交由CPU處理(即PD-CPU模式)時,P-GPU/D-CPU這種引入GPU硬件和跨設備復雜性的方案,其性能提升是否顯著到足以讓我們放棄純CPU方案的簡潔與便捷?尤其是在處理長輸入、短輸出(LISO)這類對首個詞元生成時間(TTFT)和GPU周轉率要求較高的場景時,P-GPU/D-CPU模式的潛力值得深入探究。
 
換句話說,之前的實驗只將P-GPU/D-CPU方案與全GPU的方案進行了對比,但沒有與全CPU方案進行對比。本文正是要補齊這一環,通過新的實驗數據,考察P-GPU/D-CPU模式在面對純CPU方案時,其性能表現和應用價值究竟如何。
 
關于Prefill階段和Decode階段吞吐量的巨大差異的內容,可以閱讀本篇文章
 
關于PD階段在CPU上運行分析的內容,可以閱讀本篇文章
 
實驗設計與對比方案
本次實驗的核心設計思路是分別測試長輸入長輸出(LILO)、長輸入短輸出(LISO)、短輸入長輸出(SILO)和短輸入短輸出(SISO)四種情況下,PD都在GPU上運行、P在GPU,D在CPU上運行,以及PD都在CPU上運行的耗時。本文將重點分析長輸入短輸出(LISO)的數據,以評估P-GPU/D-CPU模式的特定優勢。
 
實驗使用gpt2模型,模擬 100 個并發用戶請求,長輸入、長輸出對應的是512個token,而短輸入、短輸出都是對應的64個token。
 
實驗代碼已開源。可以使用本鏈接:
https://github.com/chen-ace/LLM-Prefill-Decode-Benchmark。開源庫中提供了英偉達CUDA的腳本和Apple M系列芯片的代碼。方便蘋果筆記本的用戶也能運行測試腳本。但由于Apple M系列設備的硬件資源有限,因此MPS版本的測試代碼只是用了gpt2模型進行測試。
 
實驗所要探究的核心問題是:P-GPU/D-CPU模式在與純CPU(PD-CPU)模式的對比中,是否依然保有足夠的性能優勢以證明其應用價值。
 
P階段
我們將整個過程分兩階段分析,首先關注單獨的P階段數據。
 
 
如上圖所示,PD分離后,P階段可以充分利用GPU資源,在運行效率上獲得了較大的提升,具體數值如表一所示,LILO模式下,P-GPU比P-CPU節省了4.59s;LISO模式下,P-GPU比P-CPU節省了5.51s;SILO模式下,P-GPU比P-CPU節省了0.56s;SISO模式下,P-GPU比P-CPU節省了0.72s;
 
表一 四種情況下P階段所消耗時間統計表
 
PD-GPU
 
P-GPU/D-CPU
 
PD-CPU
 
P階段在GPU比在CPU上節省的時間
 
LILO模式P階段耗時(s)
 
0.8322
 
0.797
 
5.3853
 
4.5883
 
LISO模式P階段耗時(s)
 
0.8158
 
0.8076
 
6.3184
 
5.5108
 
SILO模式P階段耗時(s)
 
0.1008
 
0.1083
 
0.6658
 
0.5575
 
SISO模式P階段耗時(s)
 
0.1008
 
0.1082
 
0.8291
 
0.7209
 
完整階段
從P階段的數據來看,即使是在CPU上運行,最長耗時也就6.32s,對于GPU資源的寶貴性醒來說,還是可以接受的范圍。但是如果加上D階段的耗時就是另外一回事了,數據如下表所示:
 
表二 四種情況下PD各階段所消耗時間統計表(比值均為PD-CPU與P-GPU/D-CPU的倍率)
 
PD-GPU
 
總耗時
 
P-GPU/D-CPU
 
總耗時
 
PD-CPU
 
總耗時
 
各階段倍率
 
總耗時倍率
 
LILO模式P階段耗時(s)
 
0.83
 
23.14
 
0.80
 
100.57
 
(含KV轉移時間)
 
5.39
 
162.02
 
 
 
6.76
 
1.61
 
LILO模式D階段耗時(s)
 
22.31
 
98.52
 
156.63
 
1.59
 
LISO模式P階段耗時(s)
 
0.82
 
2.06
 
0.81
 
18.47
 
(含KV轉移時間)
 
6.32
 
26.47
 
7.82
 
1.43
 
LISO模式D階段耗時(s)
 
1.24
 
16.40
 
20.15
 
1.23
 
SILO模式P階段耗時(s)
 
0.10
 
10.69
 
0.11
 
59.94
 
(含KV轉移時間)
 
0.67
 
55.02
 
6.15
 
0.92
 
SILO模式D階段耗時(s)
 
10.58
 
59.65
 
54.35
 
0.91
 
SISO模式P階段耗時(s)
 
0.10
 
0.56
 
0.11
 
6.40
 
(含KV轉移時間)
 
0.83
 
4.77
 
7.66
 
0.75
 
SISO模式D階段耗時(s)
 
0.46
 
6.16
 
3.94
 
0.64
 
 
實驗數據如上圖所示:在SILO以及SISO模式下,P階段在GPU上的提升在整個PD過程中性能的提升可以忽略不計。但是在LISO模式下,P階段在P-GPU/D-CPU模式中消耗時間為0.8076s,而在PD-CPU模式中則消耗了6.3184s,速度提升了7.82倍,D階段在P-GPU/D-CPU模式中,消耗時間為16.3957s,PD-CPU模式中,D階段消耗時間為20.1514,速度提升了1.23倍。
 
從實驗的數據中可以很明顯地得出以下結論:
 
LISO場景性能更優
面對長輸入序列(如512詞元),GPU在Prefill階段擁有顯著的速度優勢。這一巨大優勢足以彌補CPU Decode階段的相對緩慢,使得P-GPU/D-CPU模式在處理長輸入時,總耗時明顯優于純CPU模式,例如在長輸入長輸出時,實測速度提升可達約1.61倍,在長輸入短輸出時也達到了約1.43倍的提升。
 
GPU資源緊張時,優化TTFT與并發能力
當GPU資源成為瓶頸時,P-GPU/D-CPU模式的價值尤為突出。它允許GPU在快速完成計算密集的Prefill階段后,立即將后續的Decode任務卸載給CPU處理。這樣能迅速釋放寶貴的GPU資源,使其能夠服務于更多新的并發請求,從而有效縮短用戶感知的首個詞元生成時間(TTFT)并提升系統的整體并發處理能力。這對于那些需要優先保證眾多用戶快速獲得初步響應,而非追求單用戶極致長序列生成速度的場景,是一個極具吸引力的平衡策略。
 
總結
P-GPU/D-CPU部署策略在處理LISO任務時表現最佳,能顯著優化首個詞元生成時間(TTFT)和并發處理能力,尤其適合GPU資源瓶頸的場景。其優勢源于GPU對Prefill階段的極致加速及后續CPU Decode階段的相對高效,總體性能明顯優于純CPU方案。
 
盡管此策略也能加速LILO任務,但考慮到LILO本身耗時較長可能影響交互體驗,LISO更能發揮P-GPU/D-CPU在提升即時響應方面的特長。
 
但是P-GPU/D-CPU并非普適方案。對于短輸入任務,純CPU因其簡潔和低開銷反而更具優勢。
 
因此,選擇部署策略時,需權衡P-GPU/D-CPU的性能提升與實現復雜性、成本,并結合具體應用場景、性能瓶頸和對復雜度的接受程度來綜合決策。

干貨教程更多>>

華為 WATCH 5 系列鴻蒙 AI 智能手表實況窗適配應用公布 智界與尚界將獨立建網,華為鴻蒙智行廣積糧“急”稱王 余承東回應有iOS安卓為何還做鴻蒙:鴻蒙有三大優勢 iFixit 實測蘋果 iPad 自助維修服務:拆卸屏幕就需 32 個步驟 惠普光影精靈9游戲本限時特惠3599元 聯想拯救者Y7000P游戲本直降1899元 從青銅到王者:《魔獸世界:WLK》四階段神器,你是哪個級別的英雄 《王者榮耀》馬年限定塵埃落定!周瑜紫焰突襲,多星元返場,韓信新皮引期待 王者榮耀世界春溪原地區在哪里,春溪原具體位置一覽 王者榮耀中你的星座特點與哪一位本命英雄相似?我是處女座貂蟬 「王者榮耀」“海爾兄弟”混成“難兄難弟”,S40賽季趙云橘右京還是難玩啊 ‏“榮耀手機煥新”發力!400 系列首銷成績見證品牌逆襲崛起 王者榮耀「熱門套路評測」快跑小喬,跑的越快送的越快 《尋夢絲路》手游:“絲路秘籍大公開:商隊馳騁,智取財富與榮耀!” 四十年沉淀,鑄就上汽大眾合資2.0時代傳奇 《尋夢絲路》手游:“絲路秘籍大公開:商隊馳騁,財富與榮耀雙收!” 《王者榮耀》選擇大于努力,S39末期發育路英雄推薦,孫尚香下賽季更猛 《三角洲行動》DAU破1200萬!騰訊天美FPS《三角洲行動》招聘中 《王者榮耀》英魂之刃2025HEL第四周賽果炸裂!“英魂第一C”助WDG挑落王者 榮耀集結,深刻錘煉|高金MBA“2025品格領導力”訓練營燃情回顧 王者紛爭戰力提升綜合技巧與資源! 這陣容國服魯班七號來了都要挨揍,控場太多別拿呆射 王者榮耀前線-熾焰神殿試煉開啟! 2016年老皮爆殺2022年榮耀典藏,武圣為何逐漸沒落? 王者榮耀人機水平:起初為頂替掉線玩家,可秒殺比賽級玩家 王者對決高級招募刪除改動詳解 《英雄聯盟》廣袤的符文之地中,每一位英雄都宛如一顆獨特的星辰,散發著迷人的魅力 王者榮耀:莊周沒了怎么爆殺鬼谷子?遇到奇葩輔助怎么玩好射手? 一汽紅旗:未來5年推出20余款新車并同步進入海外市場 《劍星》閃耀登陸PC!極致劍術美學,開啟你的高燃冒險之旅
IGBT電子社區 車評報 嗨汽車 車圈人 播報網 觀經濟 今日媒體 速推科技 北方報 家電庫 123懸賞網 有福吧 康百順 多趣味 檸檬網 樂趣幫 趣味課堂 返利翁 王晨云 招商牌 微學堂 看報紙 報紙迷 樂米多 商媒體 小麥多 聚賢班 北京日報網 南極財經網 華夏買賣網 新車庫 微推堂 團結人 幫眾人 新車測評網 趣玩多 二手車測評網 點我98 新車測評網 321網址導航 聚財星 集奇豆 百萬盟 我要98 金米豆 網優村 查看網 百順樂 通順辦 杏園春 全職人才網 科技端 汽車星 聚人網 123670網 人才招聘網 起航網 筆下智慧網 明德語錄 大連人人網 邯鄲雅閣網 魅力自貢網 財經團 體育媒體網 廣大媒體網 房產知識網 北師學習網 財稅表 企稅策劃 手機星 我要久久發 兼職館 藍印網絡 藝首龍 今日招聘網 同城招聘網 酒仙橋 手游盟 久久發 分金子 一技網 阿里蜘蛛 賬本網
主站蜘蛛池模板: 国产成人综合亚洲一区 | 成年女人毛片免费视频永久vip | 免费观看的毛片手机视频 | 国产女人在线视频 | 国产v欧美v日韩在线观看 | 日日摸日日碰夜夜97 | 欧美日韩在线观看视频 | 免费观看日本高清a毛片 | 在线播放精品一区二区啪视频 | 亚洲视频中文字幕在线观看 | 日本韩国一区二区三区 | 韩国美女一级片 | 成人毛片免费看 | 免费的一级片网站 | 黄网站免费在线 | 台湾三级| 国产亚洲综合精品一区二区三区 | 二级毛片在线播放 | 欧美亚洲国产成人精品 | 亚洲视频男人的天堂 | 国产精品深爱在线 | 久久在线国产 | a级男女性高爱潮高清试 | 欧美精品色精品一区二区三区 | 成人性动漫高清免费观看网址 | 91成人免费在线视频 | 亚洲一区二区三区首页 | 美女视频免费看视频网站 | 日产国产精品亚洲系列 | 国产日产久久高清欧美一区 | 精品国产区一区二区三区在线观看 | 国产成人久久精品推最新 | 萝控精品福利视频一区 | 成人夜色香网站在线观看 | 国产一区二区在线不卡 | 国产精品网站 夜色 | 日本人成在线视频免费播放 | 国产成人综合日韩精品婷婷九月 | 欧美高清视频手机在在线 | 免费成人一级片 | 亚洲精品一区专区 |