BPO:靈活的 Prompt 對齊優(yōu)化技術(shù)
發(fā)布日期:2023/11/20 17:41:17 瀏覽量:
我們提出一種Prompt優(yōu)化方案——黑盒提示對齊優(yōu)化技術(shù)(Black-box Prompt Optimization),開源給大家。
這種方法有兩個優(yōu)點:
1)在用戶的prompt送入模型之前,進行一次優(yōu)化,顯著提升模型推理能力。
2)可以適配任何模型。
如果正在部署模型,可以接入玩玩,看看效果。
如何與 LLM 進行高效交流。一種方案是,人向模型對齊。于是有了 「Prompt工程師」這一崗位,專門撰寫適配 LLM 的 Prompt,從而讓模型能夠更好地生成內(nèi)容。
而另一種更為有效的方案則是,讓模型向人對齊。這也是大模型研究中非常重要的問題,無論是 GPT 還是 Claude,在對齊技術(shù)上花費大量的時間與精力。但,隨著模型規(guī)模變大,基于訓(xùn)練的對齊技術(shù)也需要耗費更大量的資源。因此,我們提出另外的一種方案,即黑盒提示對齊優(yōu)化技術(shù)(Black-box Prompt Optimization),通過優(yōu)化用戶指令,從輸入角度對模型進行對齊。
這種方法可以在不對 LLM 進行訓(xùn)練的情況下,大幅提升與人類偏好的對齊程度。而且 BPO 可以被替換到各種模型上,包括開源模型和基于API的模型。
在 VicunaEval 上使用 GPT-4 進行自動評估,BPO 能夠大幅提升 ChatGPT、Claude 等模型的人類偏好,并助力 llama2-13b 模型大幅超過 llama2-70b 的版本。
論文:https://arxiv.org/abs/2311.04155
代碼:https://github.com/thu-coai/BPO
BPO 究竟對用戶指令做了怎樣的優(yōu)化?
我們在論文的第五小節(jié)總結(jié)了BPO的一些常見優(yōu)化策略,包括:推理解釋、完善用戶問題、要點提示以及安全增強。
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生