Publications

Chronological list of papers, preprints, and workshop manuscripts. Bold indicates my authorship. * indicates equal contribution.

Where LLM Agents Fail and How They can Learn From Failures

Kunlun Zhu, Zijia Liu, Bingxuan Li, Muxin Tian, Yingxuan Yang, Jiaxun Zhang, Pengrui Han, Qipeng Xie, Fuyang Cui, Weijia Zhang, Xiaoteng Ma, Xiaodong Yu, Gowtham Ramesh, Jialian Wu, Zicheng Liu, Pan Lu, James Zou, Jiaxuan You

Taxonomy, benchmark, and debugging framework that isolates cascading failures in LLM agents and uses targeted feedback to improve reliability.

PDF

2025 arXiv

Evaluating Generalization Capabilities of LLM-Based Agents in Mixed-Motive Scenarios Using Concordia

Chandler Smith, Marwa Abdulhai, Manfred Diaz, Marko Tesic, Rakshit Trivedi, Fuyang Cui, et al.

Evaluates how well LLM agents generalize in zero-shot mixed-motive social scenarios using the Concordia simulation benchmark.

PDF

2025 NeurIPS 2025 Datasets and Benchmarks Track

Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries

Blair Yang *, Fuyang Cui *, Keiran Paster, Jimmy Ba, Pashootan Vaezipoor, Silviu Pitis, Michael R. Zhang

An automated qualitative-evaluation framework for specialized, open-ended, and agentic tasks of LLMs.

PDF Website

2024 NeurIPS 2024 SoLaR Workshop Spotlight

Dreamitator: Dream and Imitate to Control

Yuhan Chen *, Fuyang Cui *, Shouyi Hung *, Liwei Yang *

Augments DreamerV1 with an auxiliary imitation loss to improve world-model imagination accuracy.

Code

2024