Robust Feature-Level Adversaries are Interpretability Tools

Max Nadeau* (mnadeau@college.harvard.edu)

Dylan Hadfield-Menell

Gabriel Kreiman

Paper

@article{casper2021robust,
  title={Robust Feature-Level Adversaries are Interpretability Tools},
  author={Casper, Stephen and Nadeau, Max and Hadfield-Menell, Dylan and Kreiman, Gabriel},
  journal={arXiv preprint arXiv:2110.03605},
  year={2022}
}

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
README.md		README.md
feature_level_adv_demo.ipynb		feature_level_adv_demo.ipynb
fig1.png		fig1.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

feature_level_adv_demo.ipynb

feature_level_adv_demo.ipynb

fig1.png

fig1.png

Repository files navigation

Robust Feature-Level Adversaries are Interpretability Tools

Paper

An Example

Contents

About

Releases

Packages

Languages

thestephencasper/feature_level_adv

Folders and files

Latest commit

History

Repository files navigation

Robust Feature-Level Adversaries are Interpretability Tools

Paper

An Example

Contents

About

Resources

Stars

Watchers

Forks

Languages