Best AI papers explained

A podcast by Enoch H. Kang

550 Episodes

GOAT: Generative Adversarial Training for Human-AI Coordination
Published: 4/27/2025
π0.5: Generalization in Robotic Manipulation via Diverse Data
Published: 4/27/2025
NoWag: Unified Compression for Large Language Models
Published: 4/26/2025
Optimal Tool Calls in Language Model Reasoning
Published: 4/26/2025
Data Selection for Empirical Risk Minimization
Published: 4/26/2025
LoRe: Low-Rank Reward Modeling for Personalized LLMs
Published: 4/26/2025
ParaPO: Reducing Language Model Verbatim Reproduction
Published: 4/26/2025
Test-Time RL: Self-Evolving LLMs via Majority Voting Rewards
Published: 4/25/2025
Tina: Tiny LoRA Reasoning Models
Published: 4/25/2025
Evaluating large language models in theory of mind tasks
Published: 4/25/2025
QUEST: Quality Sampling for Machine Translation
Published: 4/24/2025
Offline Preference Learning via Simulated Trajectory Feedback
Published: 4/24/2025
Reasoning Elicitation in Language Models via Counterfactual Feedback
Published: 4/24/2025
Eliciting Human Preferences with Language Models
Published: 4/24/2025
Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning
Published: 4/24/2025
γ-Bench: Evaluating LLMs in Multi-Agent Games
Published: 4/24/2025
DRAFT: Self-Driven LLM Tool Mastery via Documentation Refinement
Published: 4/24/2025
Optimal Prediction Sets for Enhanced Human-AI Accuracy
Published: 4/24/2025
Self-Correction via Reinforcement Learning for Language Models
Published: 4/24/2025
Tractable Multi-Agent Reinforcement Learning through Behavioral Economics
Published: 4/24/2025

22 / 28

Cut through the noise. We curate and break down the most important AI papers so you don’t have to.

550 Episodes

GOAT: Generative Adversarial Training for Human-AI Coordination

π0.5: Generalization in Robotic Manipulation via Diverse Data

NoWag: Unified Compression for Large Language Models

Optimal Tool Calls in Language Model Reasoning

Data Selection for Empirical Risk Minimization

LoRe: Low-Rank Reward Modeling for Personalized LLMs

ParaPO: Reducing Language Model Verbatim Reproduction

Test-Time RL: Self-Evolving LLMs via Majority Voting Rewards

Tina: Tiny LoRA Reasoning Models

Evaluating large language models in theory of mind tasks

QUEST: Quality Sampling for Machine Translation

Offline Preference Learning via Simulated Trajectory Feedback

Reasoning Elicitation in Language Models via Counterfactual Feedback

Eliciting Human Preferences with Language Models

Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning

γ-Bench: Evaluating LLMs in Multi-Agent Games

DRAFT: Self-Driven LLM Tool Mastery via Documentation Refinement

Optimal Prediction Sets for Enhanced Human-AI Accuracy

Self-Correction via Reinforcement Learning for Language Models

Tractable Multi-Agent Reinforcement Learning through Behavioral Economics