
Un equipo de investigadores presentó LibScan, una herramienta híbrida que combina modelos de lenguaje y análisis estático para detectar usos indebidos de librerías en contratos inteligentes. La propuesta apunta a una clase de fallas difícil de identificar, pero capaz de provocar pérdidas multimillonarias en ecosistemas como Ethereum y DeFi.
***
- LibScan detectó ocho categorías de mal uso de librerías en contratos inteligentes con una precisión general de 85,15% sobre 662 contratos reales.
- El sistema combina razonamiento semántico con modelos de lenguaje, reglas de Slither, coincidencia estructural con TF-IDF y un mecanismo iterativo de autocorrección.
- En las pruebas reportadas, la herramienta superó por más de 16 puntos porcentuales a alternativas existentes como Slither y GPTScan.
LibScan detecta uso indebido de librerías en contratos inteligentes con un 85,15% de precisión.
Investigadores presentan una herramienta que combina modelos de lenguaje y análisis estático, superando opciones existentes.
Los errores en la implementación de librerías pueden… pic.twitter.com/7X9gHxkX2Y
— Diario฿itcoin (@DiarioBitcoin) April 7, 2026
El uso de librerías de terceros en contratos inteligentes se ha convertido en una práctica habitual dentro de Ethereum y del ecosistema Web3. La razón es simple: permiten acelerar el desarrollo, estandarizar funciones y, en teoría, elevar la seguridad de las aplicaciones descentralizadas. Sin embargo, cuando esas librerías se implementan de forma incorrecta, pueden abrir la puerta a fallas difíciles de detectar y con consecuencias financieras graves.
Ese es el problema que busca atacar LibScan: Smart Contract Library Misuse Detection with Iterative Feedback and Static Verification, trabajo firmado por Yishun Wang, Wenkai Li, Xiaoqi Li, Zongwei Li, Lei Xie y Yuqing Zhang. Los autores presentan un marco automatizado que combina modelos de lenguaje de gran tamaño con análisis estático basado en reglas, con el objetivo de identificar ocho categorías distintas de mal uso de librerías en contratos inteligentes.
Según los resultados del estudio, LibScan alcanzó una precisión general de 85,15% en pruebas realizadas sobre 662 contratos inteligentes del mundo real. De acuerdo con los autores, ese rendimiento supera a las herramientas comparables por más de 16 puntos porcentuales, una diferencia relevante en un campo donde los falsos positivos y los falsos negativos pueden traducirse en auditorías costosas o en vulnerabilidades que pasan inadvertidas.
El trasfondo del problema no es menor. Los investigadores recuerdan que los contratos inteligentes administran cientos de miles de millones de dólares en criptoactivos dentro de DeFi. En ese contexto, defectos mínimos en la lógica del código pueden derivar en pérdidas irreversibles. Como ejemplo, citan la vulnerabilidad del monedero multifirma de Parity, asociada a una inicialización incorrecta y a llamadas arbitrarias a un contrato de librería subyacente, incidente que terminó bloqueando más de USD $150.000.000 en ether.
Por qué el mal uso de librerías es un riesgo tan difícil de detectar
El estudio parte de una idea central: no todos los errores de seguridad en contratos inteligentes se parecen a una vulnerabilidad clásica. En muchos casos, el problema no está en una línea evidentemente insegura, sino en una suposición equivocada del desarrollador sobre lo que hace una librería, en una sustitución incompleta de funciones antiguas o en una integración semánticamente incorrecta.
Eso complica el trabajo de las herramientas tradicionales. Soluciones de análisis estático como Slither o marcos como Smartbugs suelen apoyarse en reglas fijas, árboles de sintaxis abstracta o grafos de flujo de control. Ese enfoque escala bien, pero puede quedarse corto cuando el hallazgo depende de inferir la intención del desarrollador o de entender el contexto completo del contrato.
Por otro lado, los modelos de lenguaje han mostrado avances importantes para razonar sobre código. Aun así, los autores advierten que un enfoque puramente impulsado por IA generativa puede sufrir alucinaciones y elevar mucho la tasa de falsos positivos, sobre todo cuando se analizan contratos extensos o complejos. Esa tensión entre comprensión semántica y verificación estricta es el vacío que LibScan intenta resolver.
Para hacerlo, el sistema mezcla capacidades heterogéneas. Usa razonamiento semántico apoyado en modelos de lenguaje, integra coincidencia estructural mediante matrices TF-IDF y añade conjuntos de reglas personalizadas con Slither. Además, incorpora un mecanismo iterativo de retroalimentación para refinar resultados y una base de conocimiento construida a partir de estudios empíricos sobre casos reales de mal uso.
Las ocho categorías de mal uso que analiza LibScan
La investigación toma como base una taxonomía previa de ocho patrones de mal uso de librerías en contratos inteligentes. Entre ellos aparece la verificación inválida en wrappers de librería, cuando la lógica de comprobación implementada no cubre todos los escenarios esperados. También figura el manejo inadecuado de excepciones dentro de la librería, un problema que puede hacer que un contrato no detecte correctamente errores de ejecución en interacciones externas.
Otra categoría es la extensión inapropiada de librerías, donde distintas funcionalidades se mezclan dentro de una misma función y elevan la complejidad o el riesgo de errores. A esto se suma el uso incorrecto de la instrucción using for, cuando las funciones de una librería se asocian a tipos de datos incompatibles o innecesarios.
El estudio también contempla el reemplazo incompleto de funciones, situación en la que el desarrollador adopta una alternativa más segura, pero deja llamadas antiguas sin sustituir. Junto con ello aparecen dos errores de interpretación opuestos: sobreestimar la capacidad de una librería, creyendo que ofrece protecciones que en realidad no implementa, y subestimar su capacidad, duplicando lógica que ya existía en el paquete importado.
La octava categoría es el uso innecesario de librerías. Un ejemplo citado por los autores es seguir utilizando SafeMath para protección ante desbordamientos en Solidity 0.8, versión que ya incorpora esas comprobaciones de forma nativa. Más allá de ser redundante, ese hábito puede añadir sobrecostos y complejidad sin mejorar la seguridad.
Cómo funciona el sistema híbrido
En términos metodológicos, LibScan primero integra descripciones de escenarios y propiedades de código para las ocho categorías de mal uso. Esa información se transforma en una base estructurada que sirve como estándar de referencia para el módulo de IA. Luego, cuando el sistema recibe un archivo de código Solidity, comienza un proceso de análisis orientado por patrones.
El módulo de modelos de lenguaje usa prompts diseñados para combinar coincidencia de rasgos de código con inferencias lógicas a partir de las descripciones de cada patrón. Los investigadores aplicaron una estrategia llamada PTS, abreviatura de Pre-generated, Then Selected, inspirada en enfoques como Auto-CoT y en la lógica de razonamiento paso a paso. La idea es inducir al modelo a exponer su razonamiento y luego reutilizar esa información para guiar respuestas posteriores.
Para reducir la variabilidad natural de las salidas, el equipo fijó la temperatura en cero y pidió a los modelos repetir el proceso cinco veces, reportando la respuesta más frecuente. El estudio evaluó GPT-4o, GPT-4 Turbo, DeepSeek-V3 y DeepSeek-R1. En una primera ronda de detección sobre 200 contratos elegidos de un total de 1.018 revisados manualmente, GPT-4o obtuvo 55% de precisión, GPT-4 Turbo 41%, DeepSeek V3 58% y DeepSeek R1 56%.
Como esos resultados fueron considerados insuficientes, los autores añadieron una capa de optimización iterativa. El sistema utiliza la salida de una ronda como insumo para la siguiente, generando un ciclo de retroalimentación correctiva. En las pruebas, los indicadores mejoraron con cada iteración, aunque en DeepSeek V3 y GPT-4 Turbo la mejora se estabilizó después de la tercera vuelta y comenzaron a crecer las predicciones erróneas. Por eso, la tercera iteración fue tomada como resultado final para todos los modelos.
El papel del análisis estático y la integración final
LibScan no se apoya solo en IA. Su segundo pilar es un módulo de análisis estático con dos variantes. La primera, llamada BCSSM, usa TfidfVectorizer para transformar fragmentos de código y contratos de entrada en matrices TF-IDF, y luego calcula similitud coseno para detectar coincidencias estructurales. La segunda, HCSA, combina análisis contextual con reglas personalizadas de Slither para examinar con mayor detalle algunos patrones.
Según el estudio, BCSSM logró 72,20% de precisión, 72,91% de recall, 75,66% de F1 y 79,38% de precisión promedio. HCSA registró 70,66% de precisión, 76,00% de recall, 76,29% de F1 y 81,98% de precisión. Aunque los números son relativamente cercanos, los autores consideraron que HCSA ofrecía mejores prestaciones en áreas donde se requería más contexto semántico.
La integración final entre el módulo de IA y el módulo estático se realizó mediante un modelo Random Forest. El sistema toma como características categóricas la salida del modelo de lenguaje y la salida del análisis estático, y combina ambas con un mecanismo de votación entre múltiples árboles de decisión. El objetivo es capturar relaciones no lineales entre los errores de ambos enfoques y aprovechar sus fortalezas complementarias.
En la comparación de configuraciones, la combinación completa de GPT-4 Turbo más HCSA fue la más sólida. Esa versión alcanzó 85,15% de precisión, 82,22% de recall, 83,75% de F1 y 86,19% de precisión. En contraste, HCSA por sí solo obtuvo 70,66% de precisión, mientras que el módulo LLM por sí solo se quedó en 73,56%.
Resultados frente a otras herramientas y límites del trabajo
El documento también compara LibScan con herramientas existentes. En el conjunto de 662 contratos evaluados, LibScan superó a Slither, que registró 62,39% de precisión, 67,85% de recall, 64,17% de F1 y 60,24% de precisión. También se ubicó por encima de GPTScan, que alcanzó 68,91% de precisión, 63,52% de recall, 71,68% de F1 y 66,73% de precisión.
Más allá de la mejora cuantitativa, el aporte del trabajo está en el tipo de problema que aborda. La detección de mal uso de librerías ha recibido menos atención que fallas más conocidas como reentrancy, overflow o errores de control de acceso. Sin embargo, en la práctica puede ser igual de peligrosa, porque combina supuestos erróneos, fragmentos heredados y dependencias externas dentro de contratos que luego quedan fijados en la cadena.
Los autores sostienen que LibScan es la primera herramienta en operacionalizar una taxonomía empírica de mal uso de librerías mediante un marco híbrido de modelos de lenguaje y análisis estático. También publicaron el código y los datos experimentales relacionados con el proyecto a través de un repositorio enlazado en el estudio, con la intención de facilitar investigación posterior y aplicaciones prácticas en auditoría.
Aun así, el trabajo reconoce limitaciones. Entre ellas figura la dificultad para manejar semánticas de código altamente complejas y la necesidad de ampliar la cobertura de patrones en el futuro. Para el ecosistema cripto, el mensaje es claro: en seguridad de contratos inteligentes, reutilizar código auditado sigue siendo una buena práctica, pero entender exactamente cómo se usa esa librería sigue siendo tan importante como elegirla.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

LibScan detecta uso indebido de librerías en contratos inteligentes con un 85,15% de precisión. 