Segui
Thomas Coste
Thomas Coste
Noah's Ark Lab & University of Cambridge
Email verificata su cam.ac.uk
Titolo
Citata da
Citata da
Anno
Reward model ensembles help mitigate overoptimization
T Coste, U Anwar, R Kirk, D Krueger
arXiv preprint arXiv:2310.02743, 2023
192023
Pangu-agent: A fine-tunable generalist agent with structured reasoning
F Christianos, G Papoudakis, M Zimmer, T Coste, Z Wu, J Chen, ...
arXiv preprint arXiv:2312.14878, 2023
72023
Bayesian Reward Models for LLM Alignment
AX Yang, M Robeyns, T Coste, J Wang, H Bou-Ammar, L Aitchison
arXiv preprint arXiv:2402.13210, 2024
2024
Il sistema al momento non può eseguire l'operazione. Riprova più tardi.
Articoli 1–3