paper: Liu, Jiacheng, et al. "Don't throw away your value model! Generating more preferable text with Value-Guided Monte-Carlo Tree Search decoding." First Conference on Language Modeling. 2024.
link: https://arxiv.org/abs/2309.15028
[Abstract]
- PPO에서 얻어지는 Value model이 적절한 guidance로써 text decoding에 도움을 줌
1. Preliminaries
- Guided Decoding
- 어떤 goal에 대해서 s_t = (w,x_<t)라는 partial output을 evaluation function을 이용하여 평가하고 decode를 이어나가는 것
- PPO
- Policy objective & Value objective
- Policy objective는 surrogate objective를 maximize
- Value objective는 return과 estimated value 간의 차이를 minimize
2. Method
1. Select
- PUCT algorithm으로 selection
- prior probability는 PPO policy model
- Q(s,a)는 edge (s,a)의 Q-function으로 PPO value model로부터 derived
2. Expand
- prior policy distribution이 계산되고 Top-k action들을 생성
- Child node의 V_bar는 zero-initialized
3. Evaluate
- Monte-Carlo rollout은 하지 않고 Value model로 V(s*)를 evaluate
- children edge의 Q(s*,a)는 V(s*)로 initialize
4. Backup
Inference
- simulation 끝나면 action은 root node의 children의 visit count에 비례해서 decode
3. Experiments
- Tasks
- sentiment steering
- toxicity reduction
- knowledge introspection
- helpful and harmless chatbots
- Baselines
- direct decoding from the same PPO policy model (nucleus sampling)
- best-of-N decoding (n=20,50)
4. Notes
- PPO에서 사용한 value model을 버리지 않고 나중에 decoding 시에 guidance로 활용한다는 점이 흥미로움
- 또한 look ahead를 위해서 MCTS를 사용하는데 이 때 rollout 없이 value model로 바로 evaluate하여 시간 및 비용을 단축함
- value model를 활용해서 MCTS를 사용하되 시간 및 비용을 단축하는 방법을 떠올리면 어떠할까