A Comparative Study of Reward Functions in Learning Prompt-Based Length Control of LLMs via GRPO
['Hayato FUJIKOSHI', 'Takeshi OKADOME']
/
IEICE Transactions in Information and Systems
/ Vol. 109
/ No. 5
まだレビューは投稿されていません。あなたが最初のレビューを書きませんか?