default search action

combined dblp search
author search
venue search
publication search

ask others

Rafael Rafailov

> Home > Persons

Person information

Refine list

refinements active!

zoomed in on ?? of ?? records

view refined list in

export refined list as

showing all ?? records

2020 – today

see FAQ

What is the meaning of the colors in the publication lists?

2025
[c21]
- view
  - electronic edition @ aclanthology.org (open access)
  - details & citations
- export record
  dblp key:
  - conf/coling/CastricatoLRFF25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/coling/CastricatoLRFF25
Louis Castricato, Nathan Lile, Rafael Rafailov, Jan-Philipp Fränken, Chelsea Finn:
PERSONA: A Reproducible Testbed for Pluralistic Alignment. COLING 2025: 11348-11368
[i33]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2501-04682
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2501-04682
Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Fränken, Nick Haber, Chelsea Finn:
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought. CoRR abs/2501.04682 (2025)
[i32]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2502-01719
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2502-01719
Haibo Tong, Zhaoyang Wang, Zhaorun Chen, Haonian Ji, Shi Qiu, Siwei Han, Kexin Geng, Zhongkai Xue, Yiyang Zhou, Peng Xia, Mingyu Ding, Rafael Rafailov, Chelsea Finn, Huaxiu Yao:
MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation. CoRR abs/2502.01719 (2025)
[i31]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2502-17387
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2502-17387
Alon Albalak, Duy Phung, Nathan Lile, Rafael Rafailov, Kanishk Gandhi, Louis Castricato, Anikait Singh, Chase Blagden, Violet Xiang, Dakota Mahan, Nick Haber:
Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models. CoRR abs/2502.17387 (2025)
2024
[j1]
- view
  - electronic edition @ umass.edu (open access)
  - details & citations
- export record
  dblp key:
  - conf/rlc/RafailovHSKSKHK24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/rlc/RafailovHSKSKHK24
Rafael Rafailov, Kyle Beltran Hatch, Anikait Singh, Aviral Kumar, Laura M. Smith, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip J. Ball, Jiajun Wu, Sergey Levine, Chelsea Finn:
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning. RLJ 5: 2178-2197 (2024)
[c20]
- view
  authority control:
- export record
  dblp key:
  - conf/acl/ParkREF24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/acl/ParkREF24
Ryan Park, Rafael Rafailov, Stefano Ermon, Chelsea Finn:
Disentangling Length from Quality in Direct Preference Optimization. ACL (Findings) 2024: 4998-5017
[c19]
- view
  - electronic edition @ mlr.press (open access)
  - details & citations
- export record
  dblp key:
  - conf/corl/KimPKXB0RFSVKBT24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/corl/KimPKXB0RFSVKBT24
Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Paul Foster, Pannag R. Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn:
OpenVLA: An Open-Source Vision-Language-Action Model. CoRL 2024: 2679-2713
[c18]
- view
  authority control:
- export record
  dblp key:
  - conf/cvpr/WallaceDRZLPEXJ24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/cvpr/WallaceDRZLPEXJ24
Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik:
Diffusion Model Alignment Using Direct Preference Optimization. CVPR 2024: 8228-8238
[c17]
- view
  - electronic edition @ openreview.net (open access)
  - details & citations
- export record
  dblp key:
  - conf/iclr/HejnaRSFNKS24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iclr/HejnaRSFNKS24
Joey Hejna, Rafael Rafailov, Harshit Sikchi, Chelsea Finn, Scott Niekum, W. Bradley Knox, Dorsa Sadigh:
Contrastive Preference Learning: Learning from Human Feedback without Reinforcement Learning. ICLR 2024
[c16]
- view
  - electronic edition @ openreview.net (open access)
  - details & citations
- export record
  dblp key:
  - conf/iclr/MitchellRSFM24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iclr/MitchellRSFM24
Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning:
An Emulator for Fine-tuning Large Language Models using Small Language Models. ICLR 2024
[c15]
- view
  - electronic edition @ openreview.net (open access)
  - details & citations
- export record
  dblp key:
  - conf/iclr/NicksMRSMFE24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iclr/NicksMRSMFE24
Charlotte Nicks, Eric Mitchell, Rafael Rafailov, Archit Sharma, Christopher D. Manning, Chelsea Finn, Stefano Ermon:
Language Model Detectors Are Easily Optimized Against. ICLR 2024
[c14]
- view
  - electronic edition @ openreview.net (open access)
  - details & citations
- export record
  dblp key:
  - conf/icml/TajwarSSR0XEFK24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icml/TajwarSSR0XEFK24
Fahim Tajwar, Anikait Singh, Archit Sharma, Rafael Rafailov, Jeff Schneider, Tengyang Xie, Stefano Ermon, Chelsea Finn, Aviral Kumar:
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data. ICML 2024
[c13]
- view
  authority control:
- export record
  dblp key:
  - conf/icra/ONeillRMGPLPGMJ24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icra/ONeillRMGPLPGMJ24
Abby O'Neill, Abdul Rehman, Abhiram Maddukuri, Abhishek Gupta, Abhishek Padalkar, Abraham Lee, Acorn Pooley, Agrim Gupta, Ajay Mandlekar, Ajinkya Jain, Albert Tung, Alex Bewley, Alexander Herzog, Alex Irpan, Alexander Khazatsky, Anant Rai, Anchit Gupta, Andrew E. Wang, Anikait Singh, Animesh Garg, Aniruddha Kembhavi, Annie Xie, Anthony Brohan, Antonin Raffin, Archit Sharma, Arefeh Yavary, Arhan Jain, Ashwin Balakrishna, Ayzaan Wahid, Ben Burgess-Limerick, Beomjoon Kim, Bernhard Schölkopf, Blake Wulfe, Brian Ichter, Cewu Lu, Charles Xu, Charlotte Le, Chelsea Finn, Chen Wang, Chenfeng Xu, Cheng Chi, Chenguang Huang, Christine Chan, Christopher Agia, Chuer Pan, Chuyuan Fu, Coline Devin, Danfei Xu, Daniel Morton, Danny Driess, Daphne Chen, Deepak Pathak, Dhruv Shah, Dieter Büchler, Dinesh Jayaraman, Dmitry Kalashnikov, Dorsa Sadigh, Edward Johns, Ethan Paul Foster, Fangchen Liu, Federico Ceola, Fei Xia, Feiyu Zhao, Freek Stulp, Gaoyue Zhou, Gaurav S. Sukhatme, Gautam Salhotra, Ge Yan, Gilbert Feng, Giulio Schiavi, Glen Berseth, Gregory Kahn, Guanzhi Wang, Hao Su, Haoshu Fang, Haochen Shi, Henghui Bao, Heni Ben Amor, Henrik I. Christensen, Hiroki Furuta, Homer Walke, Hongjie Fang, Huy Ha, Igor Mordatch, Ilija Radosavovic, Isabel Leal, Jacky Liang, Jad Abou-Chakra, Jaehyung Kim, Jaimyn Drake, Jan Peters, Jan Schneider, Jasmine Hsu, Jeannette Bohg, Jeffrey Bingham, Jeffrey Wu, Jensen Gao, Jiaheng Hu, Jiajun Wu, Jialin Wu, Jiankai Sun, Jianlan Luo, Jiayuan Gu, Jie Tan, Jihoon Oh, Jimmy Wu, Jingpei Lu, Jingyun Yang, Jitendra Malik, João Silvério, Joey Hejna, Jonathan Booher, Jonathan Tompson, Jonathan Yang, Jordi Salvador, Joseph J. Lim, Junhyek Han, Kaiyuan Wang, Kanishka Rao, Karl Pertsch, Karol Hausman, Keegan Go, Keerthana Gopalakrishnan, Ken Goldberg, Kendra Byrne, Kenneth Oslund, Kento Kawaharazuka, Kevin Black, Kevin Lin, Kevin Zhang, Kiana Ehsani, Kiran Lekkala, Kirsty Ellis, Krishan Rana, Krishnan Srinivasan, Kuan Fang, Kunal Pratap Singh, Kuo-Hao Zeng, Kyle Hatch, Kyle Hsu, Laurent Itti, Lawrence Yunliang Chen, Lerrel Pinto, Li Fei-Fei, Liam Tan, Linxi Jim Fan, Lionel Ott, Lisa Lee, Luca Weihs, Magnum Chen, Marion Lepert, Marius Memmel, Masayoshi Tomizuka, Masha Itkina, Mateo Guaman Castro, Max Spero, Maximilian Du, Michael Ahn, Michael C. Yip, Mingtong Zhang, Mingyu Ding, Minho Heo, Mohan Kumar Srirama, Mohit Sharma, Moo Jin Kim, Naoaki Kanazawa, Nicklas Hansen, Nicolas Heess, Nikhil J. Joshi, Niko Sünderhauf, Ning Liu, Norman Di Palo, Nur Muhammad (Mahi) Shafiullah, Oier Mees, Oliver Kroemer, Osbert Bastani, Pannag R. Sanketi, Patrick Tree Miller, Patrick Yin, Paul Wohlhart, Peng Xu, Peter David Fagan, Peter Mitrano, Pierre Sermanet, Pieter Abbeel, Priya Sundaresan, Qiuyu Chen, Quan Vuong, Rafael Rafailov, Ran Tian, Ria Doshi, Roberto Martín-Martín, Rohan Baijal, Rosario Scalise, Rose Hendrix, Roy Lin, Runjia Qian, Ruohan Zhang, Russell Mendonca, Rutav Shah, Ryan Hoque, Ryan Julian, Samuel Bustamante, Sean Kirmani, Sergey Levine, Shan Lin, Sherry Moore, Shikhar Bahl, Shivin Dass, Shubham D. Sonawani, Shuran Song, Sichun Xu, Siddhant Haldar, Siddharth Karamcheti, Simeon Adebola, Simon Guist, Soroush Nasiriany, Stefan Schaal, Stefan Welker, Stephen Tian, Subramanian Ramamoorthy, Sudeep Dasari, Suneel Belkhale, Sungjae Park, Suraj Nair, Suvir Mirchandani, Takayuki Osa, Tanmay Gupta, Tatsuya Harada, Tatsuya Matsushima, Ted Xiao, Thomas Kollar, Tianhe Yu, Tianli Ding, Todor Davchev, Tony Z. Zhao, Travis Armstrong, Trevor Darrell, Trinity Chung, Vidhi Jain, Vincent Vanhoucke, Wei Zhan, Wenxuan Zhou, Wolfram Burgard, Xi Chen, Xiaolong Wang, Xinghao Zhu, Xinyang Geng, Xiyuan Liu, Liangwei Xu, Xuanlin Li, Yao Lu, Yecheng Jason Ma, Yejin Kim, Yevgen Chebotar, Yifan Zhou, Yifeng Zhu, Yilin Wu, Ying Xu, Yixuan Wang, Yonatan Bisk, Yoonyoung Cho, Youngwoon Lee, Yuchen Cui, Yue Cao, Yueh-Hua Wu, Yujin Tang, Yuke Zhu, Yunchu Zhang, Yunfan Jiang, Yunshuang Li, Yunzhu Li, Yusuke Iwasawa, Yutaka Matsuo, Zehan Ma, Zhuo Xu, Zichen Jeff Cui, Zichen Zhang, Zipeng Lin:
Open X-Embodiment: Robotic Learning Datasets and RT-X Models : Open X-Embodiment Collaboration. ICRA 2024: 6892-6903
[c12]
- view
  - electronic edition @ mlr.press (open access)
  - details & citations
- export record
  dblp key:
  - conf/l4dc/KolevRH0F24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/l4dc/KolevRH0F24
Victor Kolev, Rafael Rafailov, Kyle Hatch, Jiajun Wu, Chelsea Finn:
Efficient imitation learning with conservative world models. L4DC 2024: 1777-1790
[c11]
- view
  - electronic edition @ nips.cc (open access)
  - details & citations
- export record
  dblp key:
  - conf/nips/FrankenZRGGG24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/nips/FrankenZRGGG24
Jan-Philipp Fränken, Eric Zelikman, Rafael Rafailov, Kanishk Gandhi, Tobias Gerstenberg, Noah D. Goodman:
Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels. NeurIPS 2024
[c10]
- view
  - electronic edition @ nips.cc (open access)
  - details & citations
- export record
  dblp key:
  - conf/nips/RafailovCPSHKFN24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/nips/RafailovCPSHKFN24
Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna, W. Bradley Knox, Chelsea Finn, Scott Niekum:
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms. NeurIPS 2024
[i30]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2401-03306
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2401-03306
Rafael Rafailov, Kyle Hatch, Victor Kolev, John D. Martin, Mariano Phielipp, Chelsea Finn:
MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning. CoRR abs/2401.03306 (2024)
[i29]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2402-11411
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2402-11411
Yiyang Zhou, Chenhang Cui, Rafael Rafailov, Chelsea Finn, Huaxiu Yao:
Aligning Modalities in Vision Large Language Models via Preference Fine-tuning. CoRR abs/2402.11411 (2024)
[i28]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2403-19159
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2403-19159
Ryan Park, Rafael Rafailov, Stefano Ermon, Chelsea Finn:
Disentangling Length from Quality in Direct Preference Optimization. CoRR abs/2403.19159 (2024)
[i27]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2404-01413
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2404-01413
Matthias Gerstgrasser, Rylan Schaeffer, Apratim Dey, Rafael Rafailov, Henry Sleight, John Hughes, Tomasz Korbak, Rajashree Agrawal, Dhruv Pai, Andrey Gromov, Daniel A. Roberts, Diyi Yang, David L. Donoho, Sanmi Koyejo:
Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data. CoRR abs/2404.01413 (2024)
[i26]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2404-12358
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2404-12358
Rafael Rafailov, Joey Hejna, Ryan Park, Chelsea Finn:
From r to Q^*: Your Language Model is Secretly a Q-Function. CoRR abs/2404.12358 (2024)
[i25]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2404-14313
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2404-14313
Jan-Philipp Fränken, Eric Zelikman, Rafael Rafailov, Kanishk Gandhi, Tobias Gerstenberg, Noah D. Goodman:
Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels. CoRR abs/2404.14313 (2024)
[i24]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2404-14367
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2404-14367
Fahim Tajwar, Anikait Singh, Archit Sharma, Rafael Rafailov, Jeff Schneider, Tengyang Xie, Stefano Ermon, Chelsea Finn, Aviral Kumar:
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data. CoRR abs/2404.14367 (2024)
[i23]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2405-13193
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2405-13193
Victor Kolev, Rafael Rafailov, Kyle Hatch, Jiajun Wu, Chelsea Finn:
Efficient Imitation Learning with Conservative World Models. CoRR abs/2405.13193 (2024)
[i22]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2405-19107
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2405-19107
Pierre Harvey Richemond, Yunhao Tang, Daniel Guo, Daniele Calandriello, Mohammad Gheshlaghi Azar, Rafael Rafailov, Bernardo Ávila Pires, Eugene Tarassov, Lucas Spangher, Will Ellsworth, Aliaksei Severyn, Jonathan Mallinson, Lior Shani, Gil Shamir, Rishabh Joshi, Tianqi Liu, Rémi Munos, Bilal Piot:
Offline Regularised Reinforcement Learning for Large Language Models Alignment. CoRR abs/2405.19107 (2024)
[i21]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2406-01013
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2406-01013
Ahmed M. Ahmed, Rafael Rafailov, Stepan Sharkov, Xuechen Li, Sanmi Koyejo:
Scalable Ensembling For Mitigating Reward Overoptimisation. CoRR abs/2406.01013 (2024)
[i20]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2406-02900
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2406-02900
Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna, W. Bradley Knox, Chelsea Finn, Scott Niekum:
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms. CoRR abs/2406.02900 (2024)
[i19]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2406-09246
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2406-09246
Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Paul Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn:
OpenVLA: An Open-Source Vision-Language-Action Model. CoRR abs/2406.09246 (2024)
[i18]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2407-04842
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2407-04842
Zhaorun Chen, Yichao Du, Zichen Wen, Yiyang Zhou, Chenhang Cui, Zhenzhen Weng, Haoqin Tu, Chaoqi Wang, Zhengwei Tong, Qinglan Huang, Canyu Chen, Qinghao Ye, Zhihong Zhu, Yuqing Zhang, Jiawei Zhou, Zhuokai Zhao, Rafael Rafailov, Chelsea Finn, Huaxiu Yao:
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? CoRR abs/2407.04842 (2024)
[i17]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2407-17387
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2407-17387
Louis Castricato, Nathan Lile, Rafael Rafailov, Jan-Philipp Fränken, Chelsea Finn:
PERSONA: A Reproducible Testbed for Pluralistic Alignment. CoRR abs/2407.17387 (2024)
[i16]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2408-07199
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2408-07199
Pranav Putta, Edmund Mills, Naman Garg, Sumeet Motwani, Chelsea Finn, Divyansh Garg, Rafael Rafailov:
Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents. CoRR abs/2408.07199 (2024)
[i15]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2408-08441
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2408-08441
Rafael Rafailov, Kyle Hatch, Anikait Singh, Laura M. Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip J. Ball, Jiajun Wu, Chelsea Finn, Sergey Levine:
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning. CoRR abs/2408.08441 (2024)
[i14]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2410-12832
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2410-12832
Dakota Mahan, Duy Phung, Rafael Rafailov, Chase Blagden, Nathan Lile, Louis Castricato, Jan-Philipp Fränken, Chelsea Finn, Alon Albalak:
Generative Reward Models. CoRR abs/2410.12832 (2024)
[i13]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2410-16713
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2410-16713
Joshua Kazdan, Rylan Schaeffer, Apratim Dey, Matthias Gerstgrasser, Rafael Rafailov, David L. Donoho, Sanmi Koyejo:
Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World. CoRR abs/2410.16713 (2024)
2023
[c9]
- view
  - electronic edition @ mlr.press (open access)
  - details & citations
- export record
  dblp key:
  - conf/corl/RafailovHKMPF23
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/corl/RafailovHKMPF23
Rafael Rafailov, Kyle Beltran Hatch, Victor Kolev, John D. Martin, Mariano Phielipp, Chelsea Finn:
MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning. CoRL 2023: 3654-3671
[c8]
- view
  authority control:
- export record
  dblp key:
  - conf/emnlp/TianMZSRYFM23
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/emnlp/TianMZSRYFM23
Katherine Tian, Eric Mitchell, Allan Zhou, Archit Sharma, Rafael Rafailov, Huaxiu Yao, Chelsea Finn, Christopher D. Manning:
Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback. EMNLP 2023: 5433-5442
[c7]
- view
  - electronic edition @ mlr.press (open access)
  - details & citations
- export record
  dblp key:
  - conf/l4dc/HatchERYSLF23
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/l4dc/HatchERYSLF23
Kyle Beltran Hatch, Benjamin Eysenbach, Rafael Rafailov, Tianhe Yu, Ruslan Salakhutdinov, Sergey Levine, Chelsea Finn:
Contrastive Example-Based Control. L4DC 2023: 155-169
[c6]
- view
  - electronic edition @ nips.cc (open access)
  - details & citations
- export record
  dblp key:
  - conf/nips/RafailovSMMEF23
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/nips/RafailovSMMEF23
Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D. Manning, Stefano Ermon, Chelsea Finn:
Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023
[i12]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2305-14975
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2305-14975
Katherine Tian, Eric Mitchell, Allan Zhou, Archit Sharma, Rafael Rafailov, Huaxiu Yao, Chelsea Finn, Christopher D. Manning:
Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback. CoRR abs/2305.14975 (2023)
[i11]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2305-18290
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2305-18290
Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn:
Direct Preference Optimization: Your Language Model is Secretly a Reward Model. CoRR abs/2305.18290 (2023)
[i10]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2307-13101
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2307-13101
Kyle Hatch, Benjamin Eysenbach, Rafael Rafailov, Tianhe Yu, Ruslan Salakhutdinov, Sergey Levine, Chelsea Finn:
Contrastive Example-Based Control. CoRR abs/2307.13101 (2023)
[i9]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2310-08558
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2310-08558
Max Sobol Mark, Archit Sharma, Fahim Tajwar, Rafael Rafailov, Sergey Levine, Chelsea Finn:
Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias. CoRR abs/2310.08558 (2023)
[i8]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2310-12962
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2310-12962
Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning:
An Emulator for Fine-Tuning Large Language Models using Small Language Models. CoRR abs/2310.12962 (2023)
[i7]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2310-13639
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2310-13639
Joey Hejna, Rafael Rafailov, Harshit Sikchi, Chelsea Finn, Scott Niekum, W. Bradley Knox, Dorsa Sadigh:
Contrastive Preference Learning: Learning from Human Feedback without RL. CoRR abs/2310.13639 (2023)
[i6]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2311-12908
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2311-12908
Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik:
Diffusion Model Alignment Using Direct Preference Optimization. CoRR abs/2311.12908 (2023)
2022
[c5]
- view
  - electronic edition @ openreview.net (open access)
  - details & citations
- export record
  dblp key:
  - conf/iclr/HsuKR0F22
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iclr/HsuKR0F22
Kyle Hsu, Moo Jin Kim, Rafael Rafailov, Jiajun Wu, Chelsea Finn:
Vision-Based Manipulators Need to Also See from Their Hands. ICLR 2022
[i5]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2203-12677
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2203-12677
Kyle Hsu, Moo Jin Kim, Rafael Rafailov, Jiajun Wu, Chelsea Finn:
Vision-Based Manipulators Need to Also See from Their Hands. CoRR abs/2203.12677 (2022)
2021
[c4]
- view
  - electronic edition @ mlr.press (open access)
  - details & citations
- export record
  dblp key:
  - conf/icml/MitchellRPLF21
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icml/MitchellRPLF21
Eric Mitchell, Rafael Rafailov, Xue Bin Peng, Sergey Levine, Chelsea Finn:
Offline Meta-Reinforcement Learning with Advantage Weighting. ICML 2021: 7780-7791
[c3]
- view
  - electronic edition @ mlr.press (open access)
  - details & citations
- export record
  dblp key:
  - conf/l4dc/RafailovYRF21
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/l4dc/RafailovYRF21
Rafael Rafailov, Tianhe Yu, Aravind Rajeswaran, Chelsea Finn:
Offline Reinforcement Learning from Images with Latent Space Models. L4DC 2021: 1154-1168
[c2]
- view
  - electronic edition @ neurips.cc (open access)
  - details & citations
- export record
  dblp key:
  - conf/nips/RafailovYRF21
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/nips/RafailovYRF21
Rafael Rafailov, Tianhe Yu, Aravind Rajeswaran, Chelsea Finn:
Visual Adversarial Imitation Learning using Variational Models. NeurIPS 2021: 3016-3028
[c1]
- view
  - electronic edition @ neurips.cc (open access)
  - details & citations
- export record
  dblp key:
  - conf/nips/YuKRRLF21
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/nips/YuKRRLF21
Tianhe Yu, Aviral Kumar, Rafael Rafailov, Aravind Rajeswaran, Sergey Levine, Chelsea Finn:
COMBO: Conservative Offline Model-Based Policy Optimization. NeurIPS 2021: 28954-28967
[i4]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-2102-08363
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2102-08363
Tianhe Yu, Aviral Kumar, Rafael Rafailov, Aravind Rajeswaran, Sergey Levine, Chelsea Finn:
COMBO: Conservative Offline Model-Based Policy Optimization. CoRR abs/2102.08363 (2021)
[i3]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-2107-08829
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2107-08829
Rafael Rafailov, Tianhe Yu, Aravind Rajeswaran, Chelsea Finn:
Visual Adversarial Imitation Learning using Variational Models. CoRR abs/2107.08829 (2021)
2020
[i2]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-2008-06043
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2008-06043
Eric Mitchell, Rafael Rafailov, Xue Bin Peng, Sergey Levine, Chelsea Finn:
Offline Meta-Reinforcement Learning with Advantage Weighting. CoRR abs/2008.06043 (2020)
[i1]
- view
  - electronic edition @ arxiv.org (open access)
  - details & citations
- export record
  dblp key:
  - journals/corr/abs-2012-11547
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2012-11547
Rafael Rafailov, Tianhe Yu, Aravind Rajeswaran, Chelsea Finn:
Offline Reinforcement Learning from Images with Latent Space Models. CoRR abs/2012.11547 (2020)

Coauthor Index

see FAQ

manage site settings

To protect your privacy, all features that rely on external API calls from your browser are turned off by default. You need to opt-in for them to become active. All settings here will be stored as cookies with your web browser. For more information see our F.A.Q.