{"id":133652,"date":"2026-04-07T23:28:12","date_gmt":"2026-04-08T05:28:12","guid":{"rendered":"https:\/\/pongara.net\/news\/mempalace-bajo-fuego-por-comparar-metricas-de-ia-que-no-miden-lo-mismo\/"},"modified":"2026-04-07T23:28:12","modified_gmt":"2026-04-08T05:28:12","slug":"mempalace-bajo-fuego-por-comparar-metricas-de-ia-que-no-miden-lo-mismo","status":"publish","type":"post","link":"https:\/\/pongara.net\/news\/mempalace-bajo-fuego-por-comparar-metricas-de-ia-que-no-miden-lo-mismo\/","title":{"rendered":"MemPalace bajo fuego por comparar m\u00e9tricas de IA que no miden lo mismo"},"content":{"rendered":"<div>\n<div><img width=\"640\" height=\"384\" src=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/04\/canuto-imagine-1775625615-840x504-1.jpg\" class=\"attachment-large size-large wp-post-image\" alt=\"\" style=\"margin-bottom: 15px;\" loading=\"lazy\" decoding=\"async\" srcset=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/04\/canuto-imagine-1775625615-840x504-1.jpg 840w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/04\/canuto-imagine-1775625615-608x365.jpg 608w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/04\/canuto-imagine-1775625615-768x461.jpg 768w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/04\/canuto-imagine-1775625615.jpg 1226w\" sizes=\"auto, (max-width: 640px) 100vw, 640px\"><\/div>\n<p><strong>Una revisi\u00f3n t\u00e9cnica publicada por Thin Signal puso en duda una de las afirmaciones m\u00e1s llamativas del sector de memoria para IA: que MemPalace ser\u00eda el sistema mejor evaluado hasta la fecha. El an\u00e1lisis sostiene que el famoso 96,6% no ser\u00eda comparable con los resultados de otros competidores y que, en la pr\u00e1ctica, el benchmark habr\u00eda medido capacidades b\u00e1sicas de ChromaDB m\u00e1s que la arquitectura propia del proyecto.<br \/>\n***<\/strong><\/p>\n<ul>\n<li><strong>Thin Signal afirm\u00f3 que MemPalace compar\u00f3 m\u00e9tricas distintas en una misma tabla, mezclando Recall@5 de recuperaci\u00f3n con precisi\u00f3n de preguntas y respuestas de extremo a extremo.<\/strong><\/li>\n<li><strong>El an\u00e1lisis sostiene que el 96,6% en LongMemEval se obtuvo con configuraci\u00f3n por defecto de ChromaDB y embeddings all-MiniLM-L6-v2, sin usar la arquitectura central de MemPalace.<\/strong><\/li>\n<li><strong>Tambi\u00e9n cuestion\u00f3 la promesa de \u201ccompresi\u00f3n sin p\u00e9rdida de 30x\u201d, al reportar una reducci\u00f3n de 536 a 122 caracteres, equivalente a 4,4x y con p\u00e9rdida de informaci\u00f3n clave.<\/strong><\/li>\n<\/ul>\n<p>\u00a0<\/p>\n<hr>\n<p>La discusi\u00f3n sobre c\u00f3mo medir la memoria de los sistemas de inteligencia artificial volvi\u00f3 a encenderse tras una cr\u00edtica p\u00fablica a MemPalace, una herramienta que se presentaba como \u201cel sistema de memoria para IA con la puntuaci\u00f3n m\u00e1s alta jam\u00e1s evaluado\u201d. El cuestionamiento surgi\u00f3 despu\u00e9s de que Thin Signal asegurara haber clonado el proyecto, instalado su c\u00f3digo, ejecutado sus benchmarks y revisado cada l\u00ednea del repositorio.<\/p>\n<p>Seg\u00fan esa revisi\u00f3n, la afirmaci\u00f3n central de MemPalace descansa en un resultado de 96,6% en LongMemEval, un n\u00famero que se coloc\u00f3 por encima de referencias como Mem0, Zep y Mastra. Sin embargo, el an\u00e1lisis argumenta que esa comparaci\u00f3n no ser\u00eda v\u00e1lida, porque los sistemas enfrentados no estar\u00edan siendo medidos con el mismo criterio t\u00e9cnico.<\/p>\n<p>En el centro de la controversia est\u00e1 una diferencia que puede parecer menor para el p\u00fablico general, pero que resulta decisiva para investigadores y desarrolladores. MemPalace report\u00f3 Recall@5 de recuperaci\u00f3n, mientras que los dem\u00e1s sistemas citados habr\u00edan informado precisi\u00f3n de preguntas y respuestas de extremo a extremo. Aunque ambos n\u00fameros pueden presentarse como porcentajes de rendimiento, no miden la misma tarea.<\/p>\n<p>Ese punto importa porque los benchmarks son una pieza clave en el mercado de IA. No solo influyen en reputaci\u00f3n, tambi\u00e9n afectan adopci\u00f3n, alianzas y la narrativa comercial de productos que prometen mejorar la memoria de agentes y asistentes avanzados. Cuando dos m\u00e9tricas distintas se muestran en una sola tabla como si fueran equivalentes, el riesgo es inducir a conclusiones exageradas.<\/p>\n<h3>La cr\u00edtica a la comparabilidad del 96,6%<\/h3>\n<p>Thin Signal sostuvo que el benchmark usado por MemPalace opera a nivel de sesi\u00f3n dentro de LongMemEval_s, donde habr\u00eda cerca de 50 sesiones por pregunta. En ese marco, MemPalace recupera con <em>n_results=50<\/em>, es decir, consulta todas las sesiones disponibles. Luego, el Recall@5 pregunta si la sesi\u00f3n correcta aparece dentro de las cinco primeras de un universo cercano a 50 candidatos.<\/p>\n<p>Con esa estructura, el propio an\u00e1lisis afirma que una l\u00ednea base aleatoria ser\u00eda de 10%. A partir de all\u00ed, sostuvo que cualquier modelo de embeddings \u201cdecente\u201d puede superar 95% con relativa facilidad. La implicaci\u00f3n es que el desaf\u00edo evaluado no ser\u00eda especialmente exigente y, por tanto, el 96,6% no deber\u00eda interpretarse como una prueba extraordinaria de superioridad arquitect\u00f3nica.<\/p>\n<p>La revisi\u00f3n tambi\u00e9n subray\u00f3 que LongMemEval ya tiene resultados publicados a otro nivel de dificultad. Cit\u00f3 cifras de Recall@5 a nivel de turno del trabajo RMM de ACL 2025: Contriever con 54,3%, Stella 1.5B con 59,2%, GTE con 62,4% y RMM+GTE con 69,8%. Frente a ese tel\u00f3n de fondo, el se\u00f1alamiento central es que MemPalace us\u00f3 el mismo nombre de benchmark, pero en una variante distinta y m\u00e1s f\u00e1cil.<\/p>\n<p>En t\u00e9rminos pr\u00e1cticos, el argumento de Thin Signal es que dos n\u00fameros pueden pertenecer a la misma familia de pruebas y aun as\u00ed no ser directamente comparables. Si uno eval\u00faa recuperaci\u00f3n por sesi\u00f3n con unos 50 candidatos y otro mide recuperaci\u00f3n por turno con un problema m\u00e1s fino, presentarlos lado a lado como si fueran equivalentes puede distorsionar la lectura del desempe\u00f1o real.<\/p>\n<h3>El papel de ChromaDB en el benchmark<\/h3>\n<p>Otro de los puntos m\u00e1s delicados del hilo fue la afirmaci\u00f3n de que la ruta que lleva al 96,6% no emplea ninguna l\u00f3gica espec\u00edfica de MemPalace. Seg\u00fan la revisi\u00f3n, ese resultado se obtiene con las funciones por defecto <em>collection.add()<\/em> y <em>collection.query()<\/em> de ChromaDB, apoyadas en el modelo de embeddings all-MiniLM-L6-v2 de 22 millones de par\u00e1metros.<\/p>\n<p>La conclusi\u00f3n del autor fue tajante: la \u201carquitectura palace\u201d, descrita como un esquema de alas y habitaciones, no se utilizar\u00eda en absoluto dentro del benchmark bruto que sustenta la cifra promocionada. Si eso es correcto, el resultado no estar\u00eda validando el dise\u00f1o distintivo de MemPalace, sino la capacidad est\u00e1ndar de una base vectorial ampliamente conocida.<\/p>\n<p>Ese matiz es relevante en un momento en que muchos proyectos de IA compiten por demostrar ventajas estructurales en memoria persistente, recuperaci\u00f3n contextual y compresi\u00f3n de informaci\u00f3n. Cuando una startup o herramienta atribuye un r\u00e9cord a su arquitectura, el mercado tiende a asumir que el dise\u00f1o interno fue el responsable directo del rendimiento.<\/p>\n<div class=\"diari-in-content-middle diari-entity-placement\" id=\"diari-4233086390\">\n<div id=\"diari-3277102423\" data-diari-trackid=\"221202\" data-diari-trackbid=\"1\" class=\"diari-target diari-target\"><a data-no-instant=\"1\" href=\"https:\/\/youhodler.onelink.me\/IPBU\/2kll0qnk\" rel=\"noopener\" class=\"a2t-link\" target=\"_blank\" aria-label=\"30crypto - 1200x250\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/04\/30crypto-1200x250-1-12.gif\" alt=\"30crypto - 1200x250\" width=\"1200\" height=\"250\" style=\" max-width: 100%; height: auto;\"><\/a><\/div>\n<\/div>\n<p>Thin Signal a\u00f1adi\u00f3 que, al ejecutar el c\u00f3digo, el benchmark no usar\u00eda MemPalace como tal, sino \u201cvanilla\u201d ChromaDB. Adem\u00e1s, se\u00f1al\u00f3 que el \u00fanico lugar donde se menciona expl\u00edcitamente MemPalace dentro del flujo revisado arrojar\u00eda una puntuaci\u00f3n considerablemente peor. Esa observaci\u00f3n refuerza la tesis de que la cifra estrella no describir\u00eda de forma fiel la contribuci\u00f3n real del sistema.<\/p>\n<h3>La promesa de \u201ccompresi\u00f3n sin p\u00e9rdida\u201d tambi\u00e9n fue cuestionada<\/h3>\n<p>La cr\u00edtica no se limit\u00f3 a las m\u00e9tricas de recuperaci\u00f3n. Thin Signal tambi\u00e9n puso a prueba la funci\u00f3n AAAK, presentada por MemPalace como una \u201ccompresi\u00f3n sin p\u00e9rdida de 30x\u201d. En la prueba descrita, una entrada de 536 caracteres termin\u00f3 convertida en una salida de 122 caracteres.<\/p>\n<p>Eso equivale a una compresi\u00f3n aproximada de 4,4x, muy lejos del factor 30x promocionado. Pero el punto m\u00e1s fuerte no fue solo la diferencia num\u00e9rica, sino la p\u00e9rdida de contenido. De acuerdo con el an\u00e1lisis, desaparecieron datos sobre qui\u00e9n gestionaba el equipo, informaci\u00f3n de antig\u00fcedad, la existencia de un miembro del equipo, una fecha l\u00edmite y parte del contexto necesario para razonar.<\/p>\n<p>Si esa evaluaci\u00f3n se sostiene, la expresi\u00f3n \u201csin p\u00e9rdida\u201d quedar\u00eda seriamente comprometida. En sistemas de memoria para IA, comprimir no es solo reducir caracteres. Tambi\u00e9n implica preservar relaciones, prioridades, responsables y restricciones temporales. Quitar esos elementos puede volver menos \u00fatil la memoria, incluso si el texto final es m\u00e1s corto.<\/p>\n<p>En el ecosistema de agentes aut\u00f3nomos, donde los modelos deben recordar instrucciones, decisiones previas y contexto operativo, la precisi\u00f3n de estas promesas es clave. Una compresi\u00f3n agresiva que elimina piezas esenciales puede traducirse en errores de seguimiento, fallas de coordinaci\u00f3n o respuestas incompletas, especialmente en entornos empresariales.<\/p>\n<h3>Por qu\u00e9 esta disputa importa m\u00e1s all\u00e1 de un solo proyecto<\/h3>\n<p>La controversia alrededor de MemPalace ilustra un problema recurrente en inteligencia artificial: la dificultad de comparar sistemas cuando cada equipo selecciona m\u00e9tricas, configuraciones y niveles de dificultad distintos. Para usuarios no t\u00e9cnicos, un 96,6% puede sonar concluyente. Para especialistas, ese n\u00famero solo tiene sentido si se entiende exactamente qu\u00e9 fue medido y bajo qu\u00e9 condiciones.<\/p>\n<p>La industria de IA vive una etapa en la que los benchmarks funcionan como vitrinas comerciales. Eso ha impulsado avances importantes, pero tambi\u00e9n ha creado incentivos para escoger pruebas favorables o presentar resultados en formatos que lucen m\u00e1s impresionantes de lo que realmente son. El debate no es nuevo, pero sigue siendo especialmente sensible en \u00e1reas como memoria de largo plazo y agentes de software.<\/p>\n<p>En este caso, el hilo de Thin Signal no acus\u00f3 directamente fraude, pero s\u00ed describi\u00f3 una presentaci\u00f3n potencialmente enga\u00f1osa de resultados. La distinci\u00f3n es importante. Un sistema puede funcionar bien en un escenario concreto y aun as\u00ed ser promocionado de forma exagerada si se omite el contexto t\u00e9cnico que da sentido a sus m\u00e9tricas.<\/p>\n<p>Hasta ahora, el centro del debate sigue siendo metodol\u00f3gico. La cuesti\u00f3n no es solo si MemPalace obtuvo 96,6%, sino qu\u00e9 significa exactamente ese n\u00famero y si puede compararse de manera honesta con Mem0, Zep, Mastra u otros resultados publicados. Para un sector que depende de confianza t\u00e9cnica, esa diferencia puede ser decisiva.<\/p>\n<p>La discusi\u00f3n tambi\u00e9n recuerda que abrir el c\u00f3digo o permitir la reproducci\u00f3n de pruebas no elimina por s\u00ed solo los problemas de interpretaci\u00f3n. La transparencia ayuda, pero sigue siendo necesario revisar si la tarea evaluada representa el reto que el producto dice resolver. En el terreno de la IA aplicada, esa brecha entre marketing y medici\u00f3n suele ser donde aparecen las pol\u00e9micas m\u00e1s duraderas.<\/p>\n<p>Por ahora, la revisi\u00f3n difundida por Thin Signal ha colocado a MemPalace bajo mayor escrutinio. M\u00e1s all\u00e1 del desenlace puntual, el episodio deja una advertencia \u00fatil para desarrolladores, inversionistas y usuarios: en benchmarks de IA, no basta con mirar el porcentaje final. Tambi\u00e9n hay que examinar la m\u00e9trica, el nivel de dificultad y el componente real del sistema que fue puesto a prueba.<\/p>\n<hr>\n<p><em>Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio P\u00fablico.<\/em><\/p>\n<p><em>Este art\u00edculo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisi\u00f3n.<\/em><\/p>\n<div class=\"footer-entry-meta\"><\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Una revisi\u00f3n t\u00e9cnica publicada por Thin Signal puso en duda una de las afirmaciones m\u00e1s llamativas del sector de memoria para IA: que MemPalace ser\u00eda [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":133653,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2,1],"tags":[18223,285,31644,613,1268],"class_list":["post-133652","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-crypto","category-noticias","tag-comparar","tag-crypto","tag-mempalace","tag-metricas","tag-noticias"],"_links":{"self":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts\/133652","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/comments?post=133652"}],"version-history":[{"count":0,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts\/133652\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/media\/133653"}],"wp:attachment":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/media?parent=133652"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/categories?post=133652"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/tags?post=133652"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}