Evan Hubinger

Cited by

	All	Since 2019
Citations	611	611
h-index	10	10
i10-index	11	11

360

180

270

2019202020212022202320242 10 12 41 186 357

Evan Hubinger

Safety Researcher, Anthropic

Verified email at anthropic.com - Homepage

AGI Safety


Title Sort by citations Sort by year Sort by title	Cited by Cited by	Year
Discovering language model behaviors with model-written evaluations E Perez, S Ringer, K Lukošiūtė, K Nguyen, E Chen, S Heiner, C Pettit, ... arXiv preprint arXiv:2212.09251, 2022	162	2022
Risks from learned optimization in advanced machine learning systems E Hubinger, C van Merwijk, V Mikulik, J Skalse, S Garrabrant arXiv preprint arXiv:1906.01820, 2019	116	2019
Studying large language model generalization with influence functions R Grosse, J Bae, C Anil, N Elhage, A Tamkin, A Tajdini, B Steiner, D Li, ... arXiv preprint arXiv:2308.03296, 2023	69	2023
Measuring faithfulness in chain-of-thought reasoning T Lanham, A Chen, A Radhakrishnan, B Steiner, C Denison, ... arXiv preprint arXiv:2307.13702, 2023	55	2023
Question decomposition improves the faithfulness of model-generated reasoning A Radhakrishnan, K Nguyen, A Chen, C Chen, C Denison, D Hernandez, ... arXiv preprint arXiv:2307.11768, 2023	36	2023
Sleeper agents: Training deceptive llms that persist through safety training E Hubinger, C Denison, J Mu, M Lambert, M Tong, M MacDiarmid, ... arXiv preprint arXiv:2401.05566, 2024	28	2024
Tamera Lanham, Daniel M Ziegler, Tim Maxwell, Newton Cheng, et al. Sleeper agents: Training deceptive llms that persist through safety training E Hubinger, JM Carson Denison, M Lambert, M Tong, M MacDiarmid arXiv preprint arXiv:2401.05566, 2024	28	2024
An overview of 11 proposals for building safe advanced ai E Hubinger arXiv preprint arXiv:2012.07532, 2020	24	2020
Steering llama 2 via contrastive activation addition N Rimsky, N Gabrieli, J Schulz, M Tong, E Hubinger, AM Turner arXiv preprint arXiv:2312.06681, 2023	21	2023
Many-shot jailbreaking C Anil, E Durmus, M Sharma, J Benton, S Kundu, J Batson, N Rimsky, ... Anthropic, April, 2024	15	2024
Tamera Lanham, Tim Maxwell, Venkatesa Chandrasekaran, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R A Radhakrishnan, K Nguyen, A Chen, C Chen, C Denison, D Hernandez, ... Bowman, and Ethan Perez. Question Decomposition Improves the Faithfulness of …, 2023	10	2023
Tamera Lanham, Daniel M E Hubinger, JM Carson Denison, M Lambert, M Tong, M MacDiarmid	7	2024
Model Organisms of Misalignment: The Case for a New Pillar of Alignment Research E Hubinger, N Schiefer, C Denison, E Perez Alignment Forum. URL: https://www. alignmentforum. org/posts …, 2023	6	2023
AI safety via market making E Hubinger AI Alignment Forum, 2020	6	2020
Chris Olah’s views on AGI safety E Hubinger AI Alignment Forum, 2020	5	2020
Relaxed adversarial training for inner alignment E Hubinger AI Alignment Forum 22, 2019	5	2019
Tamera Lanham, Tim Maxwell, Venkatesa Chandrasekaran, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, and Ethan Perez. 2023. Question Decomposition Improves … A Radhakrishnan, K Nguyen, A Chen, C Chen, C Denison, D Hernandez, ... arXiv preprint arxiv:2307.11768, 0	5
Relaxed adversarial training for inner alignment, 2019 E Hubinger URL https://www. alignmentforum. org/posts/9Dy5YRaoCxH9zuJqa/relaxed …, 0	5
Engineering monosemanticity in toy models AS Jermyn, N Schiefer, E Hubinger arXiv preprint arXiv:2211.09169, 2022	3	2022
Uncovering Deceptive Tendencies in Language Models: A Simulated Company AI Assistant O Järviniemi, E Hubinger arXiv preprint arXiv:2405.01576, 2024	2	2024

The system can't perform the operation now. Try again later.

Articles 1–20

Citations per year

Duplicate citations

Merged citations

Add co-authorsCo-authors

Follow

Cited by