{"id":130506,"date":"2026-03-09T20:31:11","date_gmt":"2026-03-10T02:31:11","guid":{"rendered":"https:\/\/pongara.net\/news\/investigadores-exponen-fallo-profundo-en-llm-saha-eleva-14-el-exito-de-jailbreaks\/"},"modified":"2026-03-09T20:31:11","modified_gmt":"2026-03-10T02:31:11","slug":"investigadores-exponen-fallo-profundo-en-llm-saha-eleva-14-el-exito-de-jailbreaks","status":"publish","type":"post","link":"https:\/\/pongara.net\/news\/investigadores-exponen-fallo-profundo-en-llm-saha-eleva-14-el-exito-de-jailbreaks\/","title":{"rendered":"Investigadores exponen fallo profundo en LLM: SAHA eleva 14% el \u00e9xito de jailbreaks"},"content":{"rendered":"<div>\n<div><img width=\"640\" height=\"384\" src=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773109629-840x504-1.jpg\" class=\"attachment-large size-large wp-post-image\" alt=\"\" style=\"margin-bottom: 15px;\" loading=\"lazy\" decoding=\"async\" srcset=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773109629-840x504-1.jpg 840w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773109629-608x365.jpg 608w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773109629-768x461.jpg 768w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773109629.jpg 1226w\" sizes=\"auto, (max-width: 640px) 100vw, 640px\"><\/div>\n<p><strong>Un nuevo trabajo acad\u00e9mico plantea que la verdadera fragilidad de muchos modelos abiertos de inteligencia artificial no est\u00e1 solo en los prompts o embeddings, sino en mecanismos internos m\u00e1s profundos. La propuesta, llamada SAHA, apunta a las cabezas de atenci\u00f3n vinculadas a la seguridad y logra superar a t\u00e9cnicas previas de jailbreak en Llama, Qwen y DeepSeek.<br \/>\n***<\/strong><\/p>\n<ul>\n<li><strong>El estudio propone SAHA, un marco de jailbreak que ataca cabezas de atenci\u00f3n profundas relacionadas con la seguridad.<\/strong><\/li>\n<li><strong>Seg\u00fan los autores, el m\u00e9todo mejora la tasa de \u00e9xito de ataque en 14% frente a referencias previas.<\/strong><\/li>\n<li><strong>Las pruebas sobre Llama3.1, Qwen1.5 y DeepSeek-LLM sugieren que las defensas superficiales no bastan.<\/strong><\/li>\n<\/ul>\n<p>\u00a0<\/p>\n<hr>\n<p>La carrera por hacer m\u00e1s seguros los modelos abiertos de inteligencia artificial acaba de recibir una nueva se\u00f1al de alerta. Un trabajo titulado <a href=\"https:\/\/arxiv.org\/pdf\/2603.05772\"><em>Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads<\/em><\/a>, firmado por Jinman Wu, Yi Xie, Shiqian Zhao y Xiaofeng Chen, sostiene que buena parte de las defensas actuales se concentran en niveles demasiado superficiales del modelo y dejan sin cubrir componentes internos m\u00e1s sensibles.<\/p>\n<p>En t\u00e9rminos sencillos, los autores afirman que muchos ataques de jailbreak se han enfocado en manipular prompts o embeddings. Esos enfoques han mostrado resultados importantes, pero tambi\u00e9n pueden ser mitigados por mecanismos de alineaci\u00f3n relativamente simples. El nuevo estudio busca ir m\u00e1s abajo, hasta las cabezas de atenci\u00f3n del transformador, para demostrar que all\u00ed persisten vulnerabilidades relevantes.<\/p>\n<p>El contexto importa. Los modelos de lenguaje abiertos, como Llama, Qwen o DeepSeek, publican su arquitectura y pesos, lo que facilita auditor\u00edas, investigaci\u00f3n y adopci\u00f3n. Pero esa misma apertura tambi\u00e9n permite que atacantes o equipos de red teaming exploren con mayor precisi\u00f3n d\u00f3nde residen las debilidades internas del sistema.<\/p>\n<p>La tesis central del trabajo es que la seguridad de muchos LLM podr\u00eda dar una falsa sensaci\u00f3n de solidez. Si las pruebas defensivas solo bloquean ataques en la capa de entrada o en representaciones latentes superficiales, el modelo puede seguir siendo vulnerable en partes m\u00e1s profundas de su mecanismo de razonamiento.<\/p>\n<h3>Qu\u00e9 es SAHA y por qu\u00e9 apunta a las cabezas de atenci\u00f3n<\/h3>\n<p>La propuesta de los investigadores se llama SAHA, sigla de <em>Safety Attention Head Attack<\/em>. El m\u00e9todo apunta a las cabezas de atenci\u00f3n vinculadas con comportamientos de seguridad. En la arquitectura transformer, estas cabezas son subcomponentes que ayudan al modelo a procesar relaciones entre tokens y a distribuir el foco durante la generaci\u00f3n de texto.<\/p>\n<p>La idea detr\u00e1s de SAHA es que no todas las cabezas de atenci\u00f3n pesan igual en la conducta del modelo. Algunas ser\u00edan m\u00e1s relevantes para sostener respuestas seguras o rechazos ante solicitudes peligrosas. Si un atacante identifica esas unidades cr\u00edticas y altera su activaci\u00f3n con perturbaciones peque\u00f1as, el modelo podr\u00eda dejar de negarse y empezar a producir contenido prohibido.<\/p>\n<p>El trabajo divide el m\u00e9todo en dos m\u00f3dulos. El primero se llama AIR, o <em>Ablation-Impact Ranking<\/em>. Este componente busca localizar qu\u00e9 cabezas son m\u00e1s importantes para la seguridad del modelo. Para ello, utiliza un clasificador de seguridad y mide cu\u00e1nto cae su precisi\u00f3n cuando se anula una cabeza de atenci\u00f3n concreta.<\/p>\n<p>Cuanto mayor es esa ca\u00edda de desempe\u00f1o, mayor ser\u00eda la importancia de esa cabeza para mantener el comportamiento seguro. Luego, el sistema genera un ranking y selecciona las cabezas m\u00e1s cr\u00edticas. Seg\u00fan el estudio, esta estrategia causal resulta m\u00e1s precisa que m\u00e9todos heur\u00edsticos o basados solo en correlaci\u00f3n.<\/p>\n<p>El segundo componente es LWP, o <em>Layer-Wise Perturbation<\/em>. Esta t\u00e9cnica reparte el presupuesto de perturbaci\u00f3n de forma estructurada entre capas del modelo. En vez de asignar un solo presupuesto global, distribuye las modificaciones por capa y prioriza las cabezas que AIR ya identific\u00f3 como m\u00e1s sensibles.<\/p>\n<p>Los autores indican que esa asignaci\u00f3n por capas ayuda a maximizar el deterioro del mecanismo de seguridad sin destruir la coherencia sem\u00e1ntica de la respuesta. En otras palabras, el modelo sigue respondiendo de forma relevante al pedido, pero pierde parte de sus frenos internos.<\/p>\n<h3>Resultados en Llama, Qwen y DeepSeek<\/h3>\n<p>Para evaluar la propuesta, el estudio prob\u00f3 SAHA sobre tres modelos abiertos populares: Qwen1.5-7B-Chat, Llama3.1-8B-Instruct y Deepseek-LLM-7B-Chat. Tambi\u00e9n utiliz\u00f3 dos benchmarks conocidos en seguridad de IA: JailbreakBench y MaliciousInstruct, cada uno con 100 instrucciones o comportamientos da\u00f1inos.<\/p>\n<p>Las comparaciones incluyeron siete l\u00edneas base, entre ellas PAIR, GCG, AutoDAN, AutoDAN-Turbo, SCAV, CAA y ConVA. Es decir, se enfrent\u00f3 tanto a ataques a nivel de prompt como a ataques a nivel de embedding. El criterio principal fue la tasa de \u00e9xito del ataque, o ASR, junto con BERTScore para medir la relevancia sem\u00e1ntica de la respuesta.<\/p>\n<p>Seg\u00fan los resultados reportados, SAHA mejor\u00f3 el ASR en 14% frente a los mejores m\u00e9todos previos. En Llama3.1 sobre JailbreakBench alcanz\u00f3 un ASR de 0,85 con BERTScore de 0,76. En MaliciousInstruct, sobre el mismo modelo, lleg\u00f3 a 0,87 y 0,84 respectivamente.<\/p>\n<p>En Qwen1.5, SAHA registr\u00f3 0,82 de ASR y 0,75 de BERTScore en JailbreakBench, mientras que en MaliciousInstruct subi\u00f3 a 0,86 y 0,81. En DeepSeek-LLM, los valores fueron a\u00fan mayores en algunos casos: 0,91 y 0,70 en JailbreakBench, adem\u00e1s de 0,81 y 0,77 en MaliciousInstruct.<\/p>\n<div class=\"diari-in-content-middle\" id=\"diari-2422653709\">\n<div id=\"diari-1547024779\" data-diari-trackid=\"195495\" data-diari-trackbid=\"1\" class=\"diari-target diari-target\"><\/div>\n<\/div>\n<p>El estudio tambi\u00e9n compara estos n\u00fameros con el comportamiento base de los modelos, sin ataque. All\u00ed, por ejemplo, Llama3.1 marc\u00f3 0,06 de ASR en JailbreakBench y 0,01 en MaliciousInstruct. Eso da una idea del salto que introduce una t\u00e9cnica como SAHA cuando consigue tocar componentes internos m\u00e1s cr\u00edticos.<\/p>\n<p>Los autores sostienen que los ataques a nivel de prompt muestran un desempe\u00f1o m\u00e1s fr\u00e1gil y dependiente del modelo, mientras que los m\u00e9todos a nivel de embedding suelen enfrentar un intercambio entre \u00e9xito del ataque y p\u00e9rdida de coherencia. SAHA, en cambio, habr\u00eda logrado combinar una alta tasa de jailbreak con respuestas todav\u00eda sem\u00e1nticamente alineadas con la intenci\u00f3n original.<\/p>\n<h3>Qu\u00e9 hallaron sobre la estructura interna de la seguridad<\/h3>\n<p>M\u00e1s all\u00e1 de los resultados de ataque, el trabajo intenta responder una pregunta m\u00e1s profunda sobre c\u00f3mo se organiza la seguridad dentro de un LLM. Una de sus observaciones principales es que las capas de atenci\u00f3n m\u00e1s profundas introducen m\u00e1s vulnerabilidad frente a jailbreaks. Esa conclusi\u00f3n es parte del fundamento conceptual de SAHA.<\/p>\n<p>El estudio tambi\u00e9n examin\u00f3 variantes del m\u00e9todo. Al comparar AIR con una estrategia alternativa llamada APR, basada en capacidad predictiva individual de cada cabeza, AIR obtuvo mejores resultados. La raz\u00f3n propuesta es que medir el impacto causal de apagar una cabeza permite identificar mejor los puntos donde realmente vive el razonamiento de seguridad.<\/p>\n<p>Algo similar ocurri\u00f3 al comparar LWP con una asignaci\u00f3n global de perturbaciones, llamada GWP. El enfoque por capas tendi\u00f3 a preservar mejor la fidelidad sem\u00e1ntica y, en varios casos, tambi\u00e9n elev\u00f3 el ASR. Para los autores, esto sugiere que la jerarqu\u00eda interna del transformer no puede ignorarse cuando se dise\u00f1an ataques o defensas.<\/p>\n<p>Otro an\u00e1lisis relevante gir\u00f3 en torno al par\u00e1metro \u03b1, que regula cu\u00e1ntas cabezas se retienen o perturban. El ASR creci\u00f3 de forma monot\u00f3nica al aumentar \u03b1 en los distintos modelos. Qwen1.5 y DeepSeek mostraron mejoras graduales, mientras que Llama3.1 exhibi\u00f3 un umbral m\u00e1s marcado cerca de \u03b1 \u2248 0,45, a partir del cual la eficacia del ataque subi\u00f3 con fuerza.<\/p>\n<p>En el plano de localizaci\u00f3n, el estudio encontr\u00f3 patrones compartidos y diferencias entre arquitecturas. Una se\u00f1al constante fue la importancia de la \u00faltima cabeza, Head 31, que aparecer\u00eda con frecuencia como punto cr\u00edtico para agregar rasgos de seguridad antes de la decodificaci\u00f3n. DeepSeek present\u00f3 una concentraci\u00f3n m\u00e1s amplia en capas medias y altas, Llama3.1 alrededor de la capa 7 y Qwen1.5 alrededor de la capa 5, con actividad adicional en capas bajas.<\/p>\n<p>Ese hallazgo importa para quienes construyen defensas. Si distintas familias de modelos enrutan la seguridad por zonas internas distintas, entonces una defensa uniforme o puramente superficial podr\u00eda dejar huecos estructurales. El estudio plantea que las futuras estrategias deber\u00edan distribuir mejor los mecanismos de seguridad dentro del c\u00f3mputo interno del modelo.<\/p>\n<h3>Alcances, l\u00edmites y relevancia para la industria<\/h3>\n<p>Para lectores menos familiarizados con este debate, un jailbreak es una t\u00e9cnica destinada a conseguir que un modelo responda algo que en teor\u00eda deber\u00eda rechazar. En entornos comerciales y de c\u00f3digo abierto, estas pruebas se usan tanto con fines ofensivos como para auditor\u00edas de seguridad antes del despliegue.<\/p>\n<p>Los propios autores subrayan que su enfoque opera bajo un supuesto de caja blanca. Eso significa que requiere acceso a la estructura interna del modelo, incluidas sus cabezas de atenci\u00f3n y gradientes. Por esa raz\u00f3n, SAHA no apunta de manera directa a APIs cerradas, sino a desarrolladores de modelos abiertos y equipos de seguridad que necesiten hacer pruebas de resistencia m\u00e1s realistas.<\/p>\n<p>Tambi\u00e9n aclaran que el trabajo est\u00e1 adaptado a arquitecturas transformer. Si la industria migra hacia otros dise\u00f1os, como modelos de espacio de estados, la ubicaci\u00f3n de los componentes cr\u00edticos podr\u00eda cambiar. En ese caso, una t\u00e9cnica como SAHA requerir\u00eda ajustes para seguir siendo \u00fatil.<\/p>\n<p>Aun con esas limitaciones, la investigaci\u00f3n aporta un mensaje claro para el ecosistema de IA. Si la alineaci\u00f3n se refuerza solo en la superficie, el riesgo no desaparece. M\u00e1s bien, puede quedar desplazado hacia mecanismos internos poco observados, listos para ser explotados por m\u00e9todos m\u00e1s finos y dif\u00edciles de detectar.<\/p>\n<p>En una etapa en la que la inteligencia artificial abierta compite por adopci\u00f3n masiva, ese punto toca un nervio sensible. La apertura del modelo acelera innovaci\u00f3n, pero tambi\u00e9n eleva la necesidad de pruebas defensivas m\u00e1s profundas. Para la industria, la cuesti\u00f3n ya no ser\u00eda \u00fanicamente si un modelo rechaza un prompt peligroso, sino qu\u00e9 tan robusto sigue siendo cuando se examinan las piezas internas que hacen posible ese rechazo.<\/p>\n<p>La advertencia final del estudio va en esa direcci\u00f3n. Si las cabezas de atenci\u00f3n profundas pueden convertirse en una nueva superficie de ataque, las t\u00e9cnicas de seguridad futuras tendr\u00e1n que ser m\u00e1s mecanicistas, m\u00e1s distribuidas y m\u00e1s conscientes de la arquitectura. De lo contrario, la aparente fortaleza de muchos LLM abiertos podr\u00eda resultar menos s\u00f3lida de lo que hoy parece.<\/p>\n<div class=\"footer-entry-meta\"><\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Un nuevo trabajo acad\u00e9mico plantea que la verdadera fragilidad de muchos modelos abiertos de inteligencia artificial no est\u00e1 solo en los prompts o embeddings, sino [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":130507,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2,1],"tags":[285,917,28168,1091,30938,1268,7068],"class_list":["post-130506","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-crypto","category-noticias","tag-crypto","tag-exito","tag-exponen","tag-investigadores","tag-jailbreaks","tag-noticias","tag-profundo"],"_links":{"self":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts\/130506","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/comments?post=130506"}],"version-history":[{"count":0,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts\/130506\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/media\/130507"}],"wp:attachment":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/media?parent=130506"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/categories?post=130506"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/tags?post=130506"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}