ALEJANDRO CUEVAS

Anec-Doctoring: Multilingual Multicultural Disinformation Red-Teaming

With Saloni Dash, Madeleine Daepp, Bharat Nayak, and Dan Vann

(Under Submission)

Description
We develop an AI red teaming approach to automatically generate adversarial prompts across languages and cultures. Our goal is to develop techniqes to mitigate disinformation that scale globally and realistically reflect how adversaries (mis)use models.

CategoryLLMs, Red Teaming, Disinformation