{"id":131385,"date":"2026-03-17T23:39:24","date_gmt":"2026-03-18T05:39:24","guid":{"rendered":"https:\/\/pongara.net\/news\/nextmem-propone-una-nueva-memoria-latente-para-agentes-con-ia-y-supera-a-icae-en-reconstruccion-factual\/"},"modified":"2026-03-17T23:39:24","modified_gmt":"2026-03-18T05:39:24","slug":"nextmem-propone-una-nueva-memoria-latente-para-agentes-con-ia-y-supera-a-icae-en-reconstruccion-factual","status":"publish","type":"post","link":"https:\/\/pongara.net\/news\/nextmem-propone-una-nueva-memoria-latente-para-agentes-con-ia-y-supera-a-icae-en-reconstruccion-factual\/","title":{"rendered":"NextMem propone una nueva memoria latente para agentes con IA y supera a ICAE en reconstrucci\u00f3n factual"},"content":{"rendered":"<div>\n<div><img width=\"640\" height=\"384\" src=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773812212-840x504-1.jpg\" class=\"attachment-large size-large wp-post-image\" alt=\"\" style=\"margin-bottom: 15px;\" loading=\"lazy\" decoding=\"async\" srcset=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773812212-840x504-1.jpg 840w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773812212-608x365.jpg 608w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773812212-768x461.jpg 768w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773812212.jpg 1226w\" sizes=\"auto, (max-width: 640px) 100vw, 640px\"><\/div>\n<p><strong>Un equipo de investigadores present\u00f3 NextMem, una arquitectura de memoria latente para agentes basados en modelos de lenguaje que busca resolver un cuello de botella central de la IA moderna: c\u00f3mo conservar hechos con precisi\u00f3n sin disparar el costo de contexto ni caer en olvido catastr\u00f3fico.<br \/>\n***<\/strong><\/p>\n<ul>\n<li><strong>NextMem usa un autoencoder autorregresivo para convertir texto en memoria latente y reconstruirlo con alta fidelidad.<\/strong><\/li>\n<li><strong>El estudio reporta ventajas frente a ICAE, DeepSeek-OCR y DyPRAG en reconstrucci\u00f3n, robustez y recuperaci\u00f3n.<\/strong><\/li>\n<li><strong>La propuesta a\u00f1ade cuantizaci\u00f3n NF4 para reducir almacenamiento, manteniendo resultados competitivos en varios conjuntos de datos.<\/strong><\/li>\n<\/ul>\n<p>\u00a0<\/p>\n<hr>\n<p>La carrera por construir agentes de inteligencia artificial m\u00e1s \u00fatiles no depende solo de modelos m\u00e1s grandes o de mejores capacidades de razonamiento. Tambi\u00e9n depende de algo mucho m\u00e1s b\u00e1sico: la memoria. Sin una memoria confiable, un agente basado en modelos de lenguaje puede perder detalles observados, olvidar hechos relevantes o gastar demasiados recursos intentando mantener contexto suficiente para responder bien.<\/p>\n<p>Ese es el problema que aborda <a href=\"https:\/\/arxiv.org\/pdf\/2603.15634\">NextMem: Towards Latent Factual Memory for LLM-based Agents<\/a>, trabajo firmado por Zeyu Zhang, Rui Li, Xiaoyan Zhao, Yang Zhang, Wenjie Wang, Xu Chen y Tat-Seng Chua. La propuesta plantea una memoria factual latente orientada a agentes con LLM, dise\u00f1ada para almacenar informaci\u00f3n de forma compacta, reconstruirla con precisi\u00f3n y reducir tanto la carga de contexto como el costo de almacenamiento.<\/p>\n<p>En t\u00e9rminos simples, la idea es mover parte de la memoria desde texto expl\u00edcito hacia representaciones latentes m\u00e1s cortas y compatibles con los modelos de lenguaje. El objetivo no es solo resumir o indexar, sino preservar hechos de forma reversible. Es decir, que la memoria comprimida pueda decodificarse de vuelta al contenido original con el menor nivel posible de p\u00e9rdida.<\/p>\n<p>La necesidad de resolver este problema es clara. Los agentes de IA actuales pueden operar como asistentes personales, sistemas de investigaci\u00f3n o herramientas de interacci\u00f3n prolongada. En todos esos casos, retener observaciones del pasado es clave para tomar decisiones futuras. El estudio distingue entre memorias orientadas a tareas, como preferencias o experiencia, y memoria factual, que funciona como la base que conserva detalles observables sin necesidad de reinterpretarlos para una tarea espec\u00edfica.<\/p>\n<h3>Por qu\u00e9 la memoria factual sigue siendo un cuello de botella<\/h3>\n<p>Seg\u00fan explican los autores, la investigaci\u00f3n previa ha trabajado sobre dos grandes paradigmas para memoria en agentes con LLM. El primero es la memoria textual, donde la informaci\u00f3n se guarda como texto y luego se recupera mediante bases de datos o \u00edndices para volver a inyectarla al prompt. El problema es que este enfoque aumenta la longitud del contexto y tambi\u00e9n la sobrecarga de indexaci\u00f3n cuando hay muchos detalles que almacenar.<\/p>\n<p>El segundo paradigma es la memoria param\u00e9trica. Aqu\u00ed, la informaci\u00f3n se incorpora modificando par\u00e1metros del modelo. Aunque esto puede volver el conocimiento parte del propio sistema, tambi\u00e9n introduce riesgos importantes. Entre ellos destacan el olvido catastr\u00f3fico y el alto costo de guardar hechos detallados con precisi\u00f3n suficiente.<\/p>\n<p>Frente a esos l\u00edmites, NextMem propone una tercera v\u00eda. La memoria se representa como un espacio latente, m\u00e1s corto que el texto original, pero todav\u00eda utilizable por el modelo. La ambici\u00f3n es doble: comprimir la informaci\u00f3n y permitir su reconstrucci\u00f3n. Esta segunda parte es central, porque en memoria factual no basta con extraer unas cuantas ideas clave. Lo importante es conservar los hechos con un nivel fino de detalle.<\/p>\n<p>Para lectores menos familiarizados con el tema, esto se parece m\u00e1s a un sistema de compresi\u00f3n reversible que a un simple resumen. Un resumen puede sacrificar precisi\u00f3n para ahorrar espacio. En cambio, una memoria factual \u00fatil para agentes debe recuperar con fidelidad lo visto antes, porque ese detalle puede afectar decisiones posteriores.<\/p>\n<h3>C\u00f3mo funciona NextMem<\/h3>\n<p>La arquitectura presentada se basa en un autoencoder autorregresivo construido sobre modelos de lenguaje. En la pr\u00e1ctica, el sistema cuenta con un codificador y un decodificador que comparten arquitectura, aunque usan distintos pesos. Durante la codificaci\u00f3n, el modelo transforma la secuencia textual en una representaci\u00f3n latente compuesta por varios embeddings. Luego, durante la decodificaci\u00f3n, esas representaciones sirven para reconstruir el texto original.<\/p>\n<p>Los autores a\u00f1aden un token especial llamado [SoD], que marca el inicio de la transformaci\u00f3n. A partir de ese punto, el codificador genera iterativamente embeddings latentes. El resultado final es una secuencia compacta de representaciones que sustituye a un fragmento de texto m\u00e1s largo.<\/p>\n<p>El entrenamiento ocurre en dos etapas. La primera se denomina alineaci\u00f3n autorregresiva de reconstrucci\u00f3n. All\u00ed, el sistema aprende a transformar texto en texto de manera autorregresiva. En otras palabras, primero se entrena al modelo para copiar y reconstruir correctamente, estableciendo la base del comportamiento deseado.<\/p>\n<p>La segunda etapa se llama sustituci\u00f3n latente progresiva. En este paso, partes del texto original son reemplazadas gradualmente por representaciones latentes. Esto obliga al decodificador a depender cada vez m\u00e1s de la memoria latente para recuperar los fragmentos faltantes. El dise\u00f1o progresivo busca estabilizar la optimizaci\u00f3n y mejorar la compatibilidad entre codificador y decodificador.<\/p>\n<p>Adem\u00e1s, el trabajo incorpora cuantizaci\u00f3n para reducir a\u00fan m\u00e1s el costo de almacenamiento. En concreto, emplea cuantizaci\u00f3n 4-bit NormalFloat, o NF4. El estudio se\u00f1ala que las representaciones latentes muestran suficiente robustez como para tolerar esta compresi\u00f3n con p\u00e9rdidas m\u00ednimas de precisi\u00f3n. Para reconstruir la memoria, el sistema utiliza \u00edndices de 4 bits y vectores de escala en formato FP8.<\/p>\n<div class=\"diari-in-content-middle\" id=\"diari-1803258018\">\n<div id=\"diari-3459636976\" data-diari-trackid=\"195495\" data-diari-trackbid=\"1\" class=\"diari-target diari-target\"><\/div>\n<\/div>\n<h3>Resultados frente a otros enfoques<\/h3>\n<p>La evaluaci\u00f3n principal cubre tres tareas ligadas a la memoria de agentes: reconstrucci\u00f3n factual, generaci\u00f3n contextual y recuperaci\u00f3n densa de pasajes. Para ello, los investigadores usaron conjuntos de datos como SQuAD, HotpotQA, RACE, LoCoMo y LongMemEval. Como referencia, compararon NextMem con DeepSeek-OCR, ICAE y DyPRAG, adem\u00e1s de memoria textual y BGE en ciertos escenarios.<\/p>\n<p>En reconstrucci\u00f3n factual, que representa la capacidad de almacenamiento de memoria, NextMem obtuvo los mejores resultados en la mayor\u00eda de los casos. En HotpotQA, NextMem-Dense logr\u00f3 F1 de 0,9820 frente a 0,7890 de ICAE y 0,4540 de DeepSeek-OCR. En LongMemEval, alcanz\u00f3 F1 de 0,9436, mientras ICAE marc\u00f3 0,7015. La versi\u00f3n NextMem-Sparse, que usa cuantizaci\u00f3n, mantuvo cifras muy cercanas, con 0,9805 en HotpotQA y 0,9362 en LongMemEval.<\/p>\n<p>En RACE, los resultados tambi\u00e9n fueron favorables. NextMem-Dense registr\u00f3 F1 de 0,8552 y BertScore de 0,9735. La variante sparse marc\u00f3 F1 de 0,8554 y BertScore de 0,9731. Ambas superaron con claridad a ICAE, que qued\u00f3 en F1 de 0,6077 y BertScore de 0,9370, as\u00ed como a DyPRAG y DeepSeek-OCR, mucho m\u00e1s rezagados.<\/p>\n<p>En generaci\u00f3n contextual, que mide qu\u00e9 tan \u00fatil es esa memoria para responder preguntas, apareci\u00f3 un matiz importante. ICAE mostr\u00f3 ventaja cuando la inferencia se hac\u00eda directamente sobre la representaci\u00f3n comprimida. Sin embargo, NextMem super\u00f3 a los dem\u00e1s en el escenario de descompresi\u00f3n, donde la respuesta se genera a partir del texto reconstruido. En SQuAD, por ejemplo, NextMem-Sparse alcanz\u00f3 0,7630 en DeComp., por encima de 0,7066 de ICAE.<\/p>\n<p>Ese resultado sugiere un intercambio entre capacidad de reconstrucci\u00f3n e instrucci\u00f3n directa sobre el espacio latente. Los autores reconocen ese punto como una l\u00ednea futura de investigaci\u00f3n. Por ahora, el trabajo muestra que NextMem destaca m\u00e1s cuando la prioridad es reconstruir bien la informaci\u00f3n antes de usarla en inferencia.<\/p>\n<p>La tercera prueba fue recuperaci\u00f3n densa de pasajes. Aqu\u00ed, la memoria latente tambi\u00e9n funcion\u00f3 como \u00edndice de b\u00fasqueda. Los documentos se codificaron en representaciones latentes, luego se redujeron a embeddings 1D y finalmente se compararon mediante similitud coseno con consultas. En HotpotQA, NextMem-Dense obtuvo Hit@5 de 0,7245, muy por encima de 0,4453 de ICAE y 0,3358 de DeepSeek-OCR. BGE sigui\u00f3 liderando como referencia de recuperaci\u00f3n pura, con 0,9585.<\/p>\n<h3>Robustez, escalabilidad y l\u00edmites observados<\/h3>\n<p>M\u00e1s all\u00e1 del rendimiento bruto, el estudio tambi\u00e9n explor\u00f3 propiedades importantes para aplicaciones reales. Una de ellas fue la robustez al ruido. Al a\u00f1adir ruido gaussiano a las memorias latentes, NextMem mantuvo un desempe\u00f1o estable con niveles moderados, espec\u00edficamente con \u03c3 \u2264 0,8. Incluso bajo perturbaciones m\u00e1s altas, el sistema todav\u00eda conserv\u00f3 parte del contenido \u00fatil, aunque con degradaci\u00f3n creciente.<\/p>\n<p>La cuantizaci\u00f3n NF4 produjo p\u00e9rdidas m\u00ednimas en la mayor\u00eda de los casos. Ese dato es relevante para despliegues con restricciones de memoria, porque sugiere que la compresi\u00f3n adicional no destruye el valor pr\u00e1ctico de la representaci\u00f3n latente. En un entorno de agentes con largos historiales, esa eficiencia puede ser decisiva.<\/p>\n<p>Los autores tambi\u00e9n analizaron c\u00f3mo se distribuye la sem\u00e1ntica dentro de la memoria latente. Encontraron un patr\u00f3n diagonal en las distancias entre versiones perturbadas y originales de un texto, lo que sugiere una asignaci\u00f3n espacial ordenada. En t\u00e9rminos simples, ciertas posiciones de la memoria parecen responsabilizarse de partes concretas de la informaci\u00f3n. Eso puede abrir la puerta a edici\u00f3n fina de memoria en trabajos futuros.<\/p>\n<p>Otra observaci\u00f3n fue la degradaci\u00f3n m\u00e1s lenta de NextMem cuando aumenta la longitud del texto. Aunque todos los modelos pierden precisi\u00f3n al comprimirse m\u00e1s informaci\u00f3n, NextMem mostr\u00f3 una ca\u00edda m\u00e1s gradual y mejor extrapolaci\u00f3n a secuencias fuera de distribuci\u00f3n, por encima de la longitud de entrenamiento de 240 tokens. Aun as\u00ed, el estudio tambi\u00e9n report\u00f3 peque\u00f1as ca\u00eddas en secuencias cortas, posiblemente por alucinaciones.<\/p>\n<p>En la secci\u00f3n de ablaciones, el trabajo indica que casi todos los componentes propuestos resultan importantes. Quitar el token [SoD], la sustituci\u00f3n latente progresiva o la estrategia progresiva de expansi\u00f3n redujo el desempe\u00f1o de forma visible. En la variante sparse, eliminar el escalado en cuantizaci\u00f3n produjo un deterioro dr\u00e1stico.<\/p>\n<p>Tambi\u00e9n hubo intentos fallidos antes de llegar al dise\u00f1o final. Los investigadores probaron combinaciones ponderadas de logits, diccionarios latentes adicionales, estrategias tipo mixture-of-experts, RQ-VAE, OMP y reparametrizaci\u00f3n con Gumbel-Softmax o Gaussian Softmax. En varios casos aparecieron colapso de representaci\u00f3n, inestabilidad num\u00e9rica o textos reconstruidos sin sentido. Ese detalle aporta contexto \u00fatil: el dise\u00f1o final no surgi\u00f3 de una sola iteraci\u00f3n, sino de un proceso amplio de depuraci\u00f3n.<\/p>\n<p>En conjunto, el trabajo de Zeyu Zhang, Rui Li, Xiaoyan Zhao, Yang Zhang, Wenjie Wang, Xu Chen y Tat-Seng Chua plantea una arquitectura que intenta unir almacenamiento, reconstrucci\u00f3n y recuperaci\u00f3n bajo una misma representaci\u00f3n latente. Para el ecosistema de IA, eso importa porque los agentes m\u00e1s persistentes y aut\u00f3nomos necesitar\u00e1n memoria m\u00e1s eficiente, del mismo modo en que una billetera o una base de datos eficiente resulta cr\u00edtica en infraestructura financiera digital.<\/p>\n<p>Si la l\u00ednea de investigaci\u00f3n madura, sistemas como NextMem podr\u00edan ayudar a construir asistentes personales, agentes empresariales o herramientas de investigaci\u00f3n que recuerden mejor sin disparar costos computacionales. Todav\u00eda hay limitaciones, sobre todo en uso directo del espacio comprimido para generaci\u00f3n, pero el estudio deja una se\u00f1al clara: la memoria factual latente empieza a perfilarse como una alternativa seria frente a las soluciones puramente textuales o param\u00e9tricas.<\/p>\n<div class=\"footer-entry-meta\"><\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Un equipo de investigadores present\u00f3 NextMem, una arquitectura de memoria latente para agentes basados en modelos de lenguaje que busca resolver un cuello de botella [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":131386,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2,1],"tags":[11191,285,31147,8965,639,31148,1268,248,7087,2344],"class_list":["post-131385","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-crypto","category-noticias","tag-agentes","tag-crypto","tag-factual","tag-latente","tag-memoria","tag-nextmem","tag-noticias","tag-propone","tag-reconstruccion","tag-supera"],"_links":{"self":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts\/131385","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/comments?post=131385"}],"version-history":[{"count":0,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts\/131385\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/media\/131386"}],"wp:attachment":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/media?parent=131385"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/categories?post=131385"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/tags?post=131385"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}