MentisDB propone memoria agéntica con cadena hash y recuperación híbrida sin depender de LLM

Un nuevo documento técnico plantea que la memoria de largo plazo para agentes de IA no debería depender de archivos improvisados, contexto efímero ni servicios opacos. MentisDB propone en cambio un ledger semántico, encadenado por hash y con recuperación híbrida, diseñado para preservar integridad, trazabilidad y portabilidad en sistemas agénticos.
***

MentisDB define la memoria de agentes como una cadena de registros tipados, de solo anexado y protegidos con SHA-256.
El sistema combina búsqueda léxica BM25, señales vectoriales, expansión de grafos, cohesión de sesión y RRF.
Según el documento, logra R@10 de 88,7% en LoCoMo-2P y R@10 de 74,1% en LongMemEval, sin requerir LLM en la ruta principal.

La memoria de largo plazo se ha convertido en uno de los cuellos de botella más visibles para los agentes basados en modelos de lenguaje. Muchos sistemas siguen dependiendo de ventanas de contexto efímeras, archivos Markdown dispersos o estados propietarios difíciles de trasladar entre herramientas. En ese terreno aparece MentisDB, una propuesta que busca convertir la memoria agéntica en una capa persistente, auditable y semánticamente estructurada.

El documento A Hash-Chained Semantic Memory Substrate for Agentic Systems, firmado por Angel Leon, de la Universidad Católica Andrés Bello, describe a MentisDB como un motor de memoria duradero que organiza los recuerdos de un agente como un libro mayor de thoughts tipados, encadenados por hash y de solo anexado. La versión reseñada es la 0.8.9, fechada el 17 de abril de 2026.

La tesis central es simple, pero ambiciosa. Si los agentes van a operar de forma sostenida, coordinarse entre sí y mantener continuidad real, entonces la memoria no puede ser un complemento improvisado. Debe tener integridad verificable, significado explícito, validez temporal y capacidad de recuperación eficiente.

En vez de tratar cada recuerdo como texto suelto, MentisDB lo modela como un registro estructurado. Cada thought incluye versión de esquema, identificador único, índice de anexado, marca temporal, agente emisor, firma opcional, tipo semántico, rol, contenido, etiquetas, conceptos, niveles de confianza e importancia, alcance de visibilidad, referencias y relaciones tipadas. La cadena garantiza que cada registro conserva un enlace criptográfico con el anterior.

Una memoria para agentes que prioriza integridad y portabilidad

Uno de los puntos más destacados del diseño es que no se presenta como blockchain pública ni como sistema de consenso distribuido. El documento aclara que la cadena hash cumple una función de evidencia de manipulación. Es decir, permite detectar alteraciones locales o inconsistencias en cascada, pero no promete tolerancia bizantina ni coordinación descentralizada entre múltiples nodos.

La integridad se apoya en SHA-256 y en una serialización canónica bincode. Bajo esa lógica, si un registro cambia, su hash deja de coincidir o rompe el enlace con el thought siguiente. Esa propiedad, según el texto, dificulta que un agente o un operador falsifique la historia sin recalcular toda la cadena posterior.

El sistema también contempla firmas opcionales Ed25519 para reforzar procedencia. Esto añade una capa de autenticidad sobre registros individuales cuando el agente productor tiene una clave pública previamente registrada. Para entornos donde varios agentes comparten memoria, esa función puede resultar relevante en auditoría y trazabilidad operativa.

Otro aspecto central es la portabilidad. MentisDB se distribuye como un único crate de Rust y puede operar con daemon opcional que expone superficies MCP, REST y HTTPS. Además, no necesita una base de datos externa y evita depender de servicios de nube o de LLM dentro de la ruta principal de ingestión y recuperación.

Ese énfasis responde a un problema práctico del ecosistema de IA. Hoy muchas memorias quedan atrapadas dentro de un proveedor, una interfaz o un marco específico. La propuesta busca que puedan trasladarse entre harnesses como Claude Code, Codex, Copilot, Cursor o Qwen sin perder estructura ni verificabilidad.

Cómo organiza y entiende los recuerdos

MentisDB no solo guarda contenido. También intenta clasificarlo. Para eso define un álgebra semántica con 30 variantes de tipos de thought y 8 variantes de rol. La idea es separar lo que una memoria significa de cómo se utiliza dentro del flujo de trabajo del sistema.

Entre los tipos aparecen categorías vinculadas con preferencias de usuario, rasgos, observaciones, hallazgos, hipótesis, sorpresas, errores, correcciones, lecciones aprendidas, planes, decisiones, preguntas, ideas, experimentos, acciones tomadas, estados, checkpoints y resúmenes. El documento sostiene que esa taxonomía permite distinguir mejor una observación factual de una corrección o de una reformulación conceptual.

En paralelo, los roles incluyen memoria, memoria de trabajo, resumen, compresión, checkpoint, handoff, auditoría y retrospectiva. Combinados con los tipos, producen 240 posiciones semánticas distintas. El beneficio práctico es que un mismo contenido puede clasificarse según su significado y también según la función que cumple en la operación del agente.

La propuesta suma además relaciones tipadas entre thoughts. Entre ellas figuran referencias, resúmenes, correcciones, invalidaciones, causalidad, soporte, contradicción, derivación, continuidad, ramificación, relación general y supersedes. Esta última se usa para reemplazar un encuadre previo sin afirmar necesariamente que el original era falso.

El sistema incorpora también validez temporal de aristas. Cada relación puede tener intervalos valid_at e invalid_at. Con ello, el motor puede responder consultas del tipo “qué sabía el agente en un momento específico”, una capacidad útil en auditoría, depuración y reconstrucción histórica de decisiones automatizadas.

Recuperación híbrida: léxico, vectores, grafos y ranking

En recuperación de memoria, MentisDB no apuesta por una sola técnica. El documento describe una tubería híbrida que combina señales léxicas, semánticas y de grafo. El objetivo es elevar la precisión sin depender exclusivamente de embeddings ni de coincidencias exactas de palabras.

La base léxica utiliza BM25 por campo, con compuertas de frecuencia documental para evitar que términos demasiado comunes contaminen la relevancia. Los pesos por defecto favorecen no solo el contenido, sino también etiquetas, conceptos, identificador del agente y datos del registro asociado. También se aplica stemming de Porter y una tabla de unos 170 lemas de verbos irregulares para mejorar la normalización.

Cuando existe sidecar vectorial, el sistema suma similitud coseno mediante una fusión suave vector-léxica. El documento explica que esa fórmula da un fuerte impulso a coincidencias semánticas puras cuando la señal léxica es baja, pero reduce ese refuerzo a medida que crece la puntuación textual. Con ello intenta evitar las discontinuidades de otros enfoques por tramos.

La tercera capa es el grafo. MentisDB expande resultados semilla mediante BFS acotado sobre relaciones tipadas, con pesos distintos según la naturaleza del enlace. Por ejemplo, ContinuesFrom recibe 0,60, BranchesFrom 0,55, Corrects e Invalidates 0,50, Supersedes 0,45 y References 0,06. La proximidad decrece con la profundidad.

A eso se añade una señal de cohesión de sesión. Si una coincidencia léxica no es suficientemente fuerte para sostenerse sola, el sistema puede reforzar thoughts cercanos en orden de anexado dentro de una ventana limitada. La intención es rescatar turns contiguos que quizá no repiten términos de la consulta, pero sí forman parte del mismo episodio.

La importancia también cuenta. MentisDB pondera cada thought con base en f_imp, de modo que entradas con mayor valor semántico o relevancia operativa puedan ganar desempates estrechos. Finalmente, si se activa reranking, el motor fusiona listados con Reciprocal Rank Fusion, una técnica aritmética que mezcla ranking léxico, vectorial y de grafo sin llamar a modelos externos.

Deduplicación, almacenamiento y operación local

La deduplicación es otro componente importante. MentisDB aplica una prueba de similitud de Jaccard sobre conjuntos de tokens normalizados. Si un nuevo thought supera un umbral configurable frente a una ventana reciente, el sistema emite automáticamente una relación Supersedes hacia el registro previo más parecido.

Esa decisión no borra contenido. El thought anterior se conserva por razones de auditoría, pero queda marcado dentro de un conjunto de invalidación precomputado. Gracias a ello, la recuperación puede omitir o despriorizar recuerdos reemplazados en tiempo constante. El documento fija una ventana por defecto de 64 registros y señala que, con un máximo típico de 200 tokens por thought, el costo se mantiene en una constante razonable sobre la ruta de anexado.

En almacenamiento, la implementación principal usa BinaryStorageAdapter. Cada thought se serializa con bincode y prefijo de longitud en archivos .tcbin. Hay dos modos de durabilidad: Strict, con flush confirmado y ventana de group commit de 2 ms, y Buffered, que agrupa registros y puede perder hasta 15 entradas ante un fallo duro, a cambio de mayor rendimiento.

La estructura de archivos incluye registros de agentes, sidecars vectoriales, almacenamiento de skills y material TLS. Además, existe un adaptador heredado de solo lectura para migrar cadenas .jsonl de la versión V0. En cuanto a evolución de esquema, MentisDB define un espacio lineal de versiones V0 a V3 y migraciones idempotentes que reconstruyen la cadena bajo el esquema actual para evitar costos repetidos en aperturas futuras.

Desde el punto de vista operativo, el daemon mentisdbd ofrece comandos de CLI, un servidor MCP en el puerto 9471 y REST en 9472. El texto menciona 35 herramientas MCP para bootstrap, anexado, búsqueda, lectura, exportación, importación, registro de agentes, gestión de cadenas y skills. También se describe un protocolo de inicio donde el agente lee una skill central, abre o crea la cadena y carga contexto reciente.

Resultados, límites y posición frente a otros sistemas

En evaluación empírica, el documento reporta resultados sobre LoCoMo y LongMemEval. En LoCoMo-2P, MentisDB alcanza R@10 de 88,7%. En LoCoMo-10P, sobre 1.977 consultas, registra R@10 de 72,0% en la versión 0.8.9, tras haber llegado a 74,6% en la 0.8.5. En LongMemEval, la versión 0.8.9 muestra R@5 de 66,8% y R@10 de 74,1%.

La evolución histórica sugiere que varias mejoras provinieron de ajustes concretos, como stemming de Porter, balance entre señal vectorial y léxica, cohesión de sesión, compuerta DF y embeddings FastEmbed MiniLM. Según el documento, la mejora de LoCoMo-10P en la 0.8.5 estuvo ligada al aumento del radio y refuerzo de cohesión, la duplicación de pesos de arista y el cambio desde hashing de texto hacia embeddings de oraciones.

El análisis de fallos cercanos en LoCoMo-10P v0.8.5 ofrece un dato revelador. De 503 fallos donde la respuesta dorada no apareció en el top 10, 130 estaban en R@20, 285 en R@50 y 218 quedaron por encima de 50. El texto interpreta ese 43,3% como un techo duro para recuperación puramente BM25 en ese benchmark, lo que refuerza la necesidad de señales semánticas y expansión adicional.

En cuanto al posicionamiento competitivo, MentisDB se compara con Mem0, Graphiti o Zep, y Letta o MemGPT. Según la fuente, su diferenciador es reunir almacenamiento embebido, dependencia cero de LLM en el núcleo, integridad criptográfica por cadena hash y recuperación híbrida BM25 más vectores más grafo en un solo binario estático. También reconoce brechas, como falta de ontologías por cadena, extracción de memoria guiada por LLM, extensión de navegador y contabilidad de tokens por thought.

El trabajo concluye que la memoria para agentes necesita dejar de ser un parche. MentisDB intenta responder a ese problema con una arquitectura formalizada, local y auditable. Sus limitaciones siguen siendo claras, sobre todo en recuperación léxica y en ausencia de consenso distribuido, pero el planteamiento abre una ruta interesante para sistemas de IA que necesiten recordar, justificar y transferir lo que saben con mayor rigor técnico.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

Una memoria para agentes que prioriza integridad y portabilidad

Cómo organiza y entiende los recuerdos

Recuperación híbrida: léxico, vectores, grafos y ranking

Deduplicación, almacenamiento y operación local

Resultados, límites y posición frente a otros sistemas

Related Posts

XRP cae 1,08% en 24 horas ante volumen menguante

Trump alegó no saber nada sobre reunión clave de la Casa Blanca con CEO de Anthropic

«Bancos y Fiscalía complican el negocio P2P de criptomonedas en Panamá»