default search action

combined dblp search
author search
venue search
publication search

ask others

Yi Dong 0003

> Home > Persons

Person information

affiliation: NVIDIA

Other persons with the same name

see FAQ

Refine list

refinements active!

zoomed in on ?? of ?? records

view refined list in

export refined list as

showing all ?? records

2020 – today

see FAQ

What is the meaning of the colors in the publication lists?

2025
[c7]
- view
  - electronic edition @ aclanthology.org (open access)
  - details & citations
- export record
  dblp key:
  - conf/acl/WangZDEESSDK25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/acl/WangZDEESSDK25
Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev:
HelpSteer3: Human-Annotated Feedback and Edit Data to Empower Inference-Time Scaling in Open-Ended General-Domain Tasks. ACL (1) 2025: 25640-25662
[c6]
- view
  - electronic edition @ openreview.net (open access)
  - details & citations
- export record
  dblp key:
  - conf/iclr/WangBDESZKD25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/iclr/WangBDESZKD25
Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong:
HelpSteer2-Preference: Complementing Ratings with Preferences. ICLR 2025
[c5]
- view
- export record
  dblp key:
  - conf/icml/ZhangWHDD0C0P25
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/icml/ZhangWHDD0C0P25
Michael J. Q. Zhang, Zhilin Wang, Jena D. Hwang, Yi Dong, Olivier Delalleau, Yejin Choi, Eunsol Choi, Xiang Ren, Valentina Pyatkin:
Diverging Preferences: When do Annotators Disagree and do Models Know? ICML 2025
[i17]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2502-00203
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2502-00203
Shengyang Sun, Yian Zhang, Alexander Bukharin, David Mosallanezhad, Jiaqi Zeng, Soumye Singhal, Gerald Shen, Adithya Renduchintala, Tugrul Konuk, Yi Dong, Zhilin Wang, Dmitry Chichkov, Olivier Delalleau, Oleksii Kuchaiev:
Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment. CoRR abs/2502.00203 (2025)
[i16]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2503-04378
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2503-04378
Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev:
Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks. CoRR abs/2503.04378 (2025)
[i15]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2505-00024
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2505-00024
Shaokun Zhang, Yi Dong, Jieyu Zhang, Jan Kautz, Bryan Catanzaro, Andrew Tao, Qingyun Wu, Zhiding Yu, Guilin Liu:
Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning. CoRR abs/2505.00024 (2025)
[i14]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2505-11475
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2505-11475
Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev:
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages. CoRR abs/2505.11475 (2025)
[i13]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2505-24864
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2505-24864
Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong:
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models. CoRR abs/2505.24864 (2025)
[i12]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2507-12507
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2507-12507
Mingjie Liu, Shizhe Diao, Jian Hu, Ximing Lu, Xin Dong, Hao Zhang, Alexander Bukharin, Shaokun Zhang, Jiaqi Zeng, Makesh Narsimhan Sreedhar, Gerald Shen, David Mosallanezhad, Di Zhang, Jonas Yang, June Yang, Oleksii Kuchaiev, Guilin Liu, Zhiding Yu, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong:
Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training. CoRR abs/2507.12507 (2025)
[i11]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2509-21319
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2509-21319
Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Ellie Evans, Daniel Egert, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev:
RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards. CoRR abs/2509.21319 (2025)
[i10]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2510-01180
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2510-01180
Jian Hu, Mingjie Liu, Ximing Lu, Fang Wu, Zaïd Harchaoui, Shizhe Diao, Yejin Choi, Pavlo Molchanov, June Yang, Jan Kautz, Yi Dong:
BroRL: Scaling Reinforcement Learning via Broadened Exploration. CoRR abs/2510.01180 (2025)
[i9]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2510-18941
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2510-18941
Zhilin Wang, Jaehun Jung, Ximing Lu, Shizhe Diao, Ellie Evans, Jiaqi Zeng, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong:
ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge. CoRR abs/2510.18941 (2025)
[i8]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2511-21689
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2511-21689
Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov:
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration. CoRR abs/2511.21689 (2025)
2024
[c4]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - conf/naacl/WangDZASEDSKSK24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/naacl/WangDZASEDSKSK24
Zhilin Wang, Yi Dong, Jiaqi Zeng, Virginia Adams, Makesh Narsimhan Sreedhar, Daniel Egert, Olivier Delalleau, Jane Polak Scowcroft, Neel Kant, Aidan Swope, Oleksii Kuchaiev:
HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM. NAACL-HLT 2024: 3371-3384
[c3]
- view
  - electronic edition @ nips.cc (open access)
  - details & citations
- export record
  dblp key:
  - conf/nips/WangDDZSEZSK24
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/nips/WangDDZSEZSK24
Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev:
HelpSteer 2: Open-source dataset for training top-performing reward models. NeurIPS 2024
[i7]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2405-01481
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2405-01481
Gerald Shen, Zhilin Wang, Olivier Delalleau, Jiaqi Zeng, Yi Dong, Daniel Egert, Shengyang Sun, Jimmy J. Zhang, Sahil Jain, Ali Taghibakhshi, Markel Sanz Ausin, Ashwath Aithal, Oleksii Kuchaiev:
NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment. CoRR abs/2405.01481 (2024)
[i6]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2406-08673
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2406-08673
Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev:
HelpSteer2: Open-source dataset for training top-performing reward models. CoRR abs/2406.08673 (2024)
[i5]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2410-01257
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2410-01257
Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong:
HelpSteer2-Preference: Complementing Ratings with Preferences. CoRR abs/2410.01257 (2024)
[i4]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2410-14632
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2410-14632
Michael J. Q. Zhang, Zhilin Wang, Jena D. Hwang, Yi Dong, Olivier Delalleau, Yejin Choi, Eunsol Choi, Xiang Ren, Valentina Pyatkin:
Diverging Preferences: When do Annotators Disagree and do Models Know? CoRR abs/2410.14632 (2024)
2023
[c2]
- view
  authority control:
- export record
  dblp key:
  - conf/emnlp/WangPXMLSDKLXAC23
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/emnlp/WangPXMLSDKLXAC23
Boxin Wang, Wei Ping, Peng Xu, Lawrence McAfee, Zihan Liu, Mohammad Shoeybi, Yi Dong, Oleksii Kuchaiev, Bo Li, Chaowei Xiao, Anima Anandkumar, Bryan Catanzaro:
Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study. EMNLP 2023: 7763-7786
[c1]
- view
  authority control:
- export record
  dblp key:
  - conf/emnlp/DongWSWK23
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/conf/emnlp/DongWSWK23
Yi Dong, Zhilin Wang, Makesh Narsimhan Sreedhar, Xianchao Wu, Oleksii Kuchaiev:
SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF. EMNLP (Findings) 2023: 11275-11288
[i3]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2304-06762
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2304-06762
Boxin Wang, Wei Ping, Peng Xu, Lawrence McAfee, Zihan Liu, Mohammad Shoeybi, Yi Dong, Oleksii Kuchaiev, Bo Li, Chaowei Xiao, Anima Anandkumar, Bryan Catanzaro:
Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study. CoRR abs/2304.06762 (2023)
[i2]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2310-05344
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2310-05344
Yi Dong, Zhilin Wang, Makesh Narsimhan Sreedhar, Xianchao Wu, Oleksii Kuchaiev:
SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF. CoRR abs/2310.05344 (2023)
[i1]
- view
  - electronic edition via DOI (open access)
  - details & citations
  authority control:
- export record
  dblp key:
  - journals/corr/abs-2311-09528
- ask others
- share record
  persistent URL:
  - https://dblp.org/rec/journals/corr/abs-2311-09528
Zhilin Wang, Yi Dong, Jiaqi Zeng, Virginia Adams, Makesh Narsimhan Sreedhar, Daniel Egert, Olivier Delalleau, Jane Polak Scowcroft, Neel Kant, Aidan Swope, Oleksii Kuchaiev:
HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM. CoRR abs/2311.09528 (2023)

Coauthor Index

see FAQ

manage site settings

To protect your privacy, all features that rely on external API calls from your browser are turned off by default. You need to opt-in for them to become active. All settings here will be stored as cookies with your web browser. For more information see our F.A.Q.