{"id":136907,"date":"2026-05-13T21:45:43","date_gmt":"2026-05-14T03:45:43","guid":{"rendered":"https:\/\/pongara.net\/news\/subquadratic-afirma-superar-a-flashattention-2-con-56x-mas-velocidad-en-contextos-de-1-millon-de-tokens\/"},"modified":"2026-05-13T21:45:43","modified_gmt":"2026-05-14T03:45:43","slug":"subquadratic-afirma-superar-a-flashattention-2-con-56x-mas-velocidad-en-contextos-de-1-millon-de-tokens","status":"publish","type":"post","link":"https:\/\/pongara.net\/news\/subquadratic-afirma-superar-a-flashattention-2-con-56x-mas-velocidad-en-contextos-de-1-millon-de-tokens\/","title":{"rendered":"Subquadratic afirma superar a FlashAttention-2 con 56\u00d7 m\u00e1s velocidad en contextos de 1 mill\u00f3n de tokens"},"content":{"rendered":"<div>\n<div><img width=\"640\" height=\"384\" src=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/05\/canuto-imagine-1778730336-840x504-1.jpg\" class=\"attachment-large size-large wp-post-image\" alt=\"\" style=\"margin-bottom: 15px;\" loading=\"lazy\" decoding=\"async\" srcset=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/05\/canuto-imagine-1778730336-840x504-1.jpg 840w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/05\/canuto-imagine-1778730336-608x365.jpg 608w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/05\/canuto-imagine-1778730336-768x461.jpg 768w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/05\/canuto-imagine-1778730336.jpg 1226w\" sizes=\"auto, (max-width: 640px) 100vw, 640px\"><\/div>\n<p><strong>Un an\u00e1lisis independiente de Appen concluye que el kernel Sparse Self-Attention de Subquadratic puede escalar linealmente en contextos extremos, con una ventaja de 56,2\u00d7 frente a FlashAttention-2 en 1 mill\u00f3n de tokens, mientras mantiene resultados s\u00f3lidos en recuperaci\u00f3n de largo contexto y en SWE-Bench Verified.<br \/>\n***<\/strong><strong><\/strong><\/p>\n<ul>\n<li><strong>Appen midi\u00f3 una latencia de 381 ms para SSA en 1 mill\u00f3n de tokens, frente a 21,4 segundos para FlashAttention-2.<\/strong><\/li>\n<li><strong>El informe reporta una reducci\u00f3n de FLOPs de 62,8\u00d7 en 1 mill\u00f3n de tokens y un comportamiento cercano a escalado lineal.<\/strong><\/li>\n<li><strong>En calidad, Subquadratic obtuvo 86,2% en MRCR a 1.048.576 tokens y 81,8% en SWE-Bench Verified con razonamiento extendido.<\/strong><\/li>\n<\/ul>\n<hr>\n<blockquote class=\"twitter-tweet\">\n<p lang=\"es\" dir=\"ltr\"><img decoding=\"async\" src=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/05\/1f680-4.png\" alt=\"\ud83d\ude80\" class=\"wp-smiley\" style=\"height: 1em; max-height: 1em;\"> Subquadratic supera a FlashAttention-2 en velocidad <img decoding=\"async\" src=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/05\/1f4c8.png\" alt=\"\ud83d\udcc8\" class=\"wp-smiley\" style=\"height: 1em; max-height: 1em;\"><\/p>\n<p>Informe de Appen revela que su kernel Sparse Self-Attention alcanza 381 ms en 1 mill\u00f3n de tokens. <\/p>\n<p>FlashAttention-2 tarda 21,4 segundos. <\/p>\n<p>Reducci\u00f3n de FLOPs de 62,8\u00d7. <\/p>\n<p>Mantiene resultados altos en calidad y\u2026 <a href=\"https:\/\/t.co\/F8cMcJR3lo\">pic.twitter.com\/F8cMcJR3lo<\/a><\/p>\n<p>\u2014 Diario\u0e3fitcoin\uea00 (@DiarioBitcoin) <a href=\"https:\/\/twitter.com\/DiarioBitcoin\/status\/2054776996723359971?ref_src=twsrc%5Etfw\">May 14, 2026<\/a><\/p>\n<\/blockquote>\n<p>El costo computacional de los modelos de lenguaje sigue siendo uno de los mayores cuellos de botella de la industria de la IA. En especial, cuando se trabaja con ventanas de contexto muy extensas, la atenci\u00f3n tradicional de los transformers se vuelve cada vez m\u00e1s costosa porque compara cada token con todos los dem\u00e1s. Ese crecimiento cuadr\u00e1tico, expresado como O(n\u00b2), ha limitado durante a\u00f1os lo que resulta viable en producci\u00f3n.<\/p>\n<p>En ese contexto, Subquadratic present\u00f3 una propuesta ambiciosa: reemplazar la atenci\u00f3n densa completa por un mecanismo de atenci\u00f3n propia dispersa, o Sparse Self-Attention, conocido como SSA. La promesa es relevante porque plantea un cambio estructural en el costo del c\u00f3mputo, pasando de una curva cuadr\u00e1tica a una lineal a medida que crece la longitud del contexto.<\/p>\n<p>Ahora, un informe t\u00e9cnico publicado por Appen el 11 de mayo de 2026 concluye que esa afirmaci\u00f3n s\u00ed se sostiene en varias pruebas independientes. El documento, titulado <a href=\"https:\/\/www.appen.com\/whitepapers\/benchmarking-subquadratics-latest-model-ssa-kernel\">Benchmarking Subquadratic\u2019s latest model &amp; SSA Kernel<\/a>, fue elaborado por Sergio Bruccoleri y Jeanine Sinanan-Singh, y evalu\u00f3 eficiencia, recuperaci\u00f3n en contexto largo e inteligencia de c\u00f3digo bajo condiciones cercanas a despliegues reales.<\/p>\n<h3>Qu\u00e9 se midi\u00f3 y por qu\u00e9 importa<\/h3>\n<p>Para entender la relevancia del resultado, conviene recordar el problema base. En un transformer est\u00e1ndar, duplicar la longitud del contexto no solo duplica el trabajo. Lo cuadruplica. Eso hace que pasar de 128K a 1 mill\u00f3n de tokens dispare el c\u00f3mputo a niveles que, en muchos casos, quedan fuera del alcance pr\u00e1ctico para sistemas de producci\u00f3n.<\/p>\n<p>Subquadratic sostiene que su kernel SSA evita esa explosi\u00f3n de costos mediante una pasada de enrutamiento disperso aprendido. En vez de atender a todos los pares de tokens, el sistema selecciona aquellos que considera m\u00e1s relevantes y concentra all\u00ed el c\u00f3mputo. Seg\u00fan la hip\u00f3tesis arquitect\u00f3nica, eso permite un escalado lineal, donde duplicar el contexto equivale a duplicar el trabajo, no a cuadruplicarlo.<\/p>\n<p>Appen evalu\u00f3 esa premisa con pruebas de latencia end-to-end en hardware NVIDIA B200, usando CUDA 13.0, PyTorch 2.11.0 y precisi\u00f3n bfloat16. Los resultados se calcularon como el promedio de 5 ejecuciones cronometradas, luego de 3 iteraciones de calentamiento. El comparativo principal se realiz\u00f3 contra FlashAttention-2, una implementaci\u00f3n ampliamente usada para acelerar atenci\u00f3n densa.<\/p>\n<p>De acuerdo con el informe, FlashAttention-2 sigui\u00f3 de cerca la curva te\u00f3rica O(n\u00b2), mientras que SSA mostr\u00f3 un comportamiento lineal casi exacto. Appen indic\u00f3 que, al aumentar el contexto 8\u00d7, la latencia de SSA creci\u00f3 7,95\u00d7, una correspondencia que calific\u00f3 como casi perfecta con el comportamiento O(n).<\/p>\n<h3>La brecha de rendimiento en 1 mill\u00f3n de tokens<\/h3>\n<p>El dato m\u00e1s llamativo del reporte aparece en la prueba con 1 mill\u00f3n de tokens. En ese escenario, SSA complet\u00f3 la pasada en 381 ms. La ejecuci\u00f3n equivalente con FlashAttention-2 tard\u00f3 21,4 segundos. La diferencia en tiempo de pared fue de 56,2\u00d7, una brecha que Appen describi\u00f3 como la consecuencia natural de dos arquitecturas que divergen a lo largo de curvas de complejidad distintas.<\/p>\n<p>El informe subraya que esa aceleraci\u00f3n no ser\u00eda un resultado aislado ni elegido de forma conveniente. Seg\u00fan el an\u00e1lisis, la ventaja se ampl\u00eda de manera predecible conforme aumenta el n\u00famero de tokens. La idea central es que el beneficio no depende solo de optimizaciones de implementaci\u00f3n, sino de una diferencia estructural en la forma de computar atenci\u00f3n.<\/p>\n<p>Para evitar que el tiempo de pared quedara condicionado por factores del hardware, Appen tambi\u00e9n midi\u00f3 el problema desde la \u00f3ptica de FLOPs. Ese dato busca estimar el trabajo computacional real de la arquitectura. Usando la f\u00f3rmula est\u00e1ndar de FlashAttention y MLPerf, y validando contra mediciones de <em>torch.profiler<\/em>, el informe report\u00f3 una coincidencia entre teor\u00eda y medici\u00f3n dentro de un margen de 0,7% a 3,9% en todas las longitudes probadas.<\/p>\n<p>En FLOPs, la reducci\u00f3n tambi\u00e9n fue marcada. A 128K tokens, FlashAttention-2 registr\u00f3 142,1 TFLOP frente a 18,1 TFLOP de SSA, una reducci\u00f3n de 7,9\u00d7. A 256K tokens, el salto fue de 568,4 TFLOP contra 36,1 TFLOP, o 15,7\u00d7 menos. A 512K tokens, 2.273,8 TFLOP frente a 72,3 TFLOP, una reducci\u00f3n de 31,5\u00d7. Finalmente, en 1 mill\u00f3n de tokens, la atenci\u00f3n densa alcanz\u00f3 9.095,2 TFLOP frente a 144,9 TFLOP de SSA, equivalente a 62,8\u00d7 menos FLOPs.<\/p>\n<p>Ese comportamiento, seg\u00fan el documento, refuerza que la linealidad de SSA no solo aparece en la latencia, sino tambi\u00e9n en el c\u00f3mputo subyacente. Cada duplicaci\u00f3n del contexto duplic\u00f3 aproximadamente los FLOPs de SSA, una se\u00f1al consistente con el planteamiento arquitect\u00f3nico del sistema.<\/p>\n<div class=\"diari-in-content-middle diari-entity-placement\" id=\"diari-3332352201\">\n<div id=\"diari-617214789\" data-diari-trackid=\"195495\" data-diari-trackbid=\"1\" class=\"diari-target diari-target\"><\/div>\n<\/div>\n<h3>La prueba decisiva: eficiencia sin perder calidad<\/h3>\n<p>Una de las objeciones tradicionales a los sistemas de atenci\u00f3n dispersa es que suelen ganar eficiencia a costa de precisi\u00f3n. Por eso, el informe dedic\u00f3 una parte importante a medir si el ahorro de c\u00f3mputo ven\u00eda acompa\u00f1ado de una degradaci\u00f3n fuerte en recuperaci\u00f3n de informaci\u00f3n o razonamiento complejo.<\/p>\n<p>En el benchmark RULER, que trabaja con 131.072 tokens, Subquadratic fue evaluado en tareas de preguntas y respuestas de uno y varios saltos, extracci\u00f3n de palabras, seguimiento de variables y recuperaci\u00f3n de agujas m\u00faltiples. Para las tareas de preguntas y extracci\u00f3n se utiliz\u00f3 a Claude Opus 4.6 como juez LLM, una metodolog\u00eda orientada a capturar respuestas sem\u00e1nticamente correctas que la coincidencia exacta de cadenas podr\u00eda penalizar.<\/p>\n<p>El resultado global de QA y extracci\u00f3n fue de 95,6%. En detalle, obtuvo 100,0% en qa_1, 100,0% en qa_2, 97,4% en cwe y 98,0% en fwe. Tambi\u00e9n logr\u00f3 100,0% en niah_single_1, niah_single_2 y niah_single_3, adem\u00e1s de 100,0% en niah_multivalue. En las variantes multiclave, registr\u00f3 96,0% con 2 claves, 83,0% con 4 claves y 68,0% con 8 claves.<\/p>\n<p>El informe interpreta ese patr\u00f3n como una se\u00f1al de recuperaci\u00f3n confiable en tareas estructuradas y de aguja \u00fanica a 128K tokens. La ca\u00edda en multiclave fue presentada como una degradaci\u00f3n esperable a medida que aumenta el n\u00famero de objetivos simult\u00e1neos. Appen se\u00f1al\u00f3 que ese fen\u00f3meno ya est\u00e1 documentado en el propio trabajo de RULER y que no ser\u00eda una limitaci\u00f3n exclusiva de SSA.<\/p>\n<h3>MRCR y SWE-Bench Verified elevan la exigencia<\/h3>\n<p>La evaluaci\u00f3n m\u00e1s dura en recuperaci\u00f3n fue MRCR, abreviatura de Multi-needle Retrieval in Context at Range. All\u00ed, Appen prob\u00f3 exclusivamente el nivel de 8 agujas, descrito como el m\u00e1s dif\u00edcil, dentro del mayor grupo de entradas del conjunto de datos, entre 524.288 y 1.048.576 tokens. Esa escala de contexto es, precisamente, la que suele dejar fuera de juego a muchas implementaciones con atenci\u00f3n densa.<\/p>\n<p>En esa prueba, Subquadratic obtuvo 86,2% sobre 100 muestras con una ventana de 1.048.576 tokens. El reporte destaca que se trata de un resultado sustancial dado el nivel de dificultad. Tambi\u00e9n describe un patr\u00f3n de error bimodal: el modelo o recupera correctamente las ocho agujas o falla por completo, lo que sugiere una conducta de recuperaci\u00f3n de todo o nada.<\/p>\n<p>La tercera pata del an\u00e1lisis fue SWE-Bench Verified, una evaluaci\u00f3n con incidencias reales de GitHub procedentes de repositorios Python de c\u00f3digo abierto seleccionados. La meta no era responder preguntas, sino producir un parche que resolviera la incidencia y superara todas las pruebas existentes sin introducir regresiones. En este benchmark no existe cr\u00e9dito parcial.<\/p>\n<p>Con el razonamiento extendido activado, Subquadratic alcanz\u00f3 una tasa de resoluci\u00f3n de 81,8% en SWE-Bench Verified. Seg\u00fan el informe, ese nivel lo ubic\u00f3 entre los mejores desempe\u00f1os observados en el benchmark al momento de la evaluaci\u00f3n. En conjunto con los resultados de eficiencia, Appen concluy\u00f3 que la arquitectura dispersa no mostr\u00f3 una penalizaci\u00f3n evidente de calidad en tareas complejas de razonamiento de varios pasos.<\/p>\n<h3>Metodolog\u00eda, independencia y alcance del informe<\/h3>\n<p>Appen remarc\u00f3 que la evaluaci\u00f3n se realiz\u00f3 con independencia operativa. Para los benchmarks de desempe\u00f1o del modelo, el acceso se limit\u00f3 a endpoints de API y claves de autenticaci\u00f3n de Subquadratic. La empresa evaluadora indic\u00f3 que no recibi\u00f3 por adelantado pesos del modelo, datos de entrenamiento, configuraciones de ajuste fino ni etiquetas de referencia de los benchmarks.<\/p>\n<p>En cambio, para las mediciones de tiempo de pared y FLOPs, s\u00ed obtuvo acceso al c\u00f3digo clave del algoritmo, realiz\u00f3 una revisi\u00f3n t\u00e9cnica y pudo ejecutar pruebas lado a lado. El informe sostiene que, bajo ese esquema, las mediciones reflejan un rendimiento aut\u00e9ntico y no influido del modelo. La evaluaci\u00f3n fue dirigida por Jeanine Sinanan-Singh, directora de investigaci\u00f3n en GenAI, y por Sergio Bruccoleri, vicepresidente de operaciones.<\/p>\n<p>El documento completo incluye datos de tiempo por ejecuci\u00f3n, validaci\u00f3n detallada con <em>torch.profiler<\/em>, desglose completo de las 13 tareas de RULER con 100 muestras cada una, resultados por muestra en MRCR, patr\u00f3n de error a 1 mill\u00f3n de tokens, aprobaci\u00f3n o rechazo por caso en SWE-Bench Verified y una atestaci\u00f3n firmada de independencia metodol\u00f3gica.<\/p>\n<p>M\u00e1s all\u00e1 de la competencia puntual entre kernels de atenci\u00f3n, el trasfondo de esta evaluaci\u00f3n es m\u00e1s amplio. Si una arquitectura capaz de escalar linealmente en ventanas de contexto extremas mantiene niveles \u00fatiles de recuperaci\u00f3n y razonamiento, el debate deja de ser solo t\u00e9cnico. Pasa a tocar el dise\u00f1o mismo de los modelos de pr\u00f3xima generaci\u00f3n, en un momento en que la industria busca agentes capaces de trabajar con bases documentales, repositorios de c\u00f3digo y flujos complejos que exceden por mucho los l\u00edmites tradicionales de contexto.<\/p>\n<div class=\"footer-entry-meta\"><\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Un an\u00e1lisis independiente de Appen concluye que el kernel Sparse Self-Attention de Subquadratic puede escalar linealmente en contextos extremos, con una ventaja de 56,2\u00d7 frente [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":136908,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2,1],"tags":[1159,13405,285,32384,1323,1268,32383,1482,1098,2223],"class_list":["post-136907","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-crypto","category-noticias","tag-afirma","tag-contextos","tag-crypto","tag-flashattention-2","tag-millon","tag-noticias","tag-subquadratic","tag-superar","tag-tokens","tag-velocidad"],"_links":{"self":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts\/136907","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/comments?post=136907"}],"version-history":[{"count":0,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts\/136907\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/media\/136908"}],"wp:attachment":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/media?parent=136907"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/categories?post=136907"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/tags?post=136907"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}