Jalaj Bhandari

Citata da

	Tutte	Dal 2019
Citazioni	791	784
Indice H	6	6
i10-index	5	5

200

100

150

201720182019202020212022202320243 3 33 101 150 158 193 148

Accesso pubblico

Visualizza tutto

1 articolo

0 articoli

Disponibili

Non disponibili

In base ai mandati di finanziamento

Coautori

Daniel RussoColumbia UniversityEmail verificata su gsb.columbia.edu
John CunninghamProfessor, Columbia UniversityEmail verificata su columbia.edu
Francois FaganApplied Research, FacebookEmail verificata su fb.com
Zheqing (Bill) ZhuStanford University, FacebookEmail verificata su stanford.edu
Dmytro KorenkevychMeta AIEmail verificata su meta.com
Vineet GoyalColumbia UniversityEmail verificata su ieor.columbia.edu
Vashist AvadhanulaSr. Applied Scientist, AmazonEmail verificata su amazon.com
assaf zeeviColumbia universityEmail verificata su gsb.columbia.edu
Yonathan EfroniMeta, New YorkEmail verificata su fb.com
Daniel R. JiangMeta & University of PittsburghEmail verificata su meta.com
Wanqiao XuStanford UniversityEmail verificata su stanford.edu
Zheng WuUniversity of California, BerkeleyEmail verificata su berkeley.edu
Yi WanMetaEmail verificata su meta.com
Nomesh BoliaIIT DelhiEmail verificata su mech.iitd.ac.in
Zhenyu YanDirector, Data Sciences, AdobeEmail verificata su adobe.com
Wuyang DaiBoston University, University of MinnesotaEmail verificata su bu.edu

Segui

Jalaj Bhandari

Columbia University, Meta AI Research

Email verificata su columbia.edu - Home page

Reinforcement learning Machine learning Artificial Intelligence


Titolo Ordina per citazioni Ordina per anno Ordina per titolo	Citata da Citata da	Anno
A finite time analysis of temporal difference learning with linear function approximation J Bhandari, D Russo, R Singal Conference on learning theory, 1691-1692, 2018	391	2018
Global optimality guarantees for policy gradient methods J Bhandari, D Russo Operations Research, 2024	254	2024
A note on the linear convergence of policy gradient methods J Bhandari, D Russo arXiv preprint arXiv:2007.11120, 79, 2020	98*	2020
On the tightness of an LP relaxation for rational optimization and its applications V Avadhanula, J Bhandari, V Goyal, A Zeevi Operations Research Letters 44 (5), 612-617, 2016	14	2016
Elliptical Slice Sampling with Expectation Propagation. F Fagan, J Bhandari, JP Cunningham UAI, 2016	13	2016
Global optimality guarantees for policy gradient methods. 2019 J Bhandari, D Russo Preprint, 1906	7	1906
Optimizing long-term value for auction-based recommender systems via on-policy reinforcement learning R Xu, J Bhandari, D Korenkevych, F Liu, Y He, A Nikulkov, Z Zhu Proceedings of the 17th ACM Conference on Recommender Systems, 955-962, 2023	6	2023
Optimization foundations of reinforcement learning J Bhandari Columbia University, 2020	6	2020
Pearl: A Production-ready Reinforcement Learning Agent Z Zhu, RS Braz, J Bhandari, D Jiang, Y Wan, Y Efroni, L Wang, R Xu, ... arXiv preprint arXiv:2312.03814, 2023	2	2023
MULTI-OBJECTIVE CUSTOMER JOURNEY OPTIMIZATION J BHANDARI, W DAI, JUN HE, T XU, Z YAN, LEI ZHANG US Patent 20,210,217,047, 2021		2021
Annular Augmentation Sampling F Fagan, J Bhandari, J Cunningham Artificial Intelligence and Statistics, 139-147, 2017		2017
User Scheduling in Cognitive Radio Networks J Bhandari, N Bolia Journal of Computations & Modelling 3 (3), 177-193, 2013		2013

Il sistema al momento non può eseguire l'operazione. Riprova più tardi.

Articoli 1–12

Citazioni per anno

Citazioni duplicate

Citazioni unite

Aggiungi coautoriCoautori

Segui

Citata da

Coautori