{"id":131373,"date":"2026-03-17T16:42:30","date_gmt":"2026-03-17T22:42:30","guid":{"rendered":"https:\/\/pongara.net\/news\/openseeker-rompe-el-cerco-de-datos-y-libera-un-agente-de-busqueda-ia-que-desafia-a-gigantes\/"},"modified":"2026-03-17T16:42:30","modified_gmt":"2026-03-17T22:42:30","slug":"openseeker-rompe-el-cerco-de-datos-y-libera-un-agente-de-busqueda-ia-que-desafia-a-gigantes","status":"publish","type":"post","link":"https:\/\/pongara.net\/news\/openseeker-rompe-el-cerco-de-datos-y-libera-un-agente-de-busqueda-ia-que-desafia-a-gigantes\/","title":{"rendered":"OpenSeeker rompe el cerco de datos y libera un agente de b\u00fasqueda IA que desaf\u00eda a gigantes"},"content":{"rendered":"<div>\n<div><img width=\"640\" height=\"384\" src=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773787172-840x504-1.jpg\" class=\"attachment-large size-large wp-post-image\" alt=\"\" style=\"margin-bottom: 15px;\" loading=\"lazy\" decoding=\"async\" srcset=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773787172-840x504-1.jpg 840w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773787172-608x365.jpg 608w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773787172-768x461.jpg 768w, https:\/\/diariobitcoin.b-cdn.net\/wp-content\/uploads\/2026\/03\/canuto-imagine-1773787172.jpg 1226w\" sizes=\"auto, (max-width: 640px) 100vw, 640px\"><\/div>\n<p><strong>Un equipo de la Universidad Jiao Tong de Shangh\u00e1i present\u00f3 OpenSeeker, un agente de b\u00fasqueda con IA que no solo libera sus pesos, sino tambi\u00e9n todo su dataset de entrenamiento. La propuesta apunta a romper una barrera clave del sector: el control corporativo sobre los datos de alta calidad necesarios para construir agentes capaces de investigar la web con varios pasos de razonamiento.<br \/>\n***<\/strong><\/p>\n<ul>\n<li><strong>OpenSeeker fue desarrollado por un equipo acad\u00e9mico y libera modelo, datos y pipeline de s\u00edntesis.<\/strong><\/li>\n<li><strong>Con solo 11.700 muestras sint\u00e9ticas y un \u00fanico entrenamiento SFT, logr\u00f3 resultados competitivos en cuatro benchmarks.<\/strong><\/li>\n<li><strong>El sistema super\u00f3 a DeepDive entre los proyectos totalmente abiertos y venci\u00f3 a Tongyi DeepResearch en BrowseComp-ZH.<\/strong><\/li>\n<\/ul>\n<hr>\n<blockquote class=\"twitter-tweet\">\n<p lang=\"es\" dir=\"ltr\"><img decoding=\"async\" src=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/03\/1f680-8.png\" alt=\"\ud83d\ude80\" class=\"wp-smiley\" style=\"height: 1em; max-height: 1em;\"><img decoding=\"async\" src=\"https:\/\/pongara.net\/news\/wp-content\/uploads\/2026\/03\/26a1-2.png\" alt=\"\u26a1\" class=\"wp-smiley\" style=\"height: 1em; max-height: 1em;\"> OpenSeeker: el primer agente de b\u00fasqueda de IA totalmente abierto est\u00e1 aqu\u00ed. <\/p>\n<p>Desarrollado por la Universidad Jiao Tong de Shangh\u00e1i, libera los pesos y el dataset de entrenamiento.<\/p>\n<p>Con solo 11.700 muestras sint\u00e9ticas, logr\u00f3 resultados competitivos, superando a DeepDive y\u2026 <a href=\"https:\/\/t.co\/dSlwDyrUHt\">pic.twitter.com\/dSlwDyrUHt<\/a><\/p>\n<p>\u2014 Diario\u0e3fitcoin\uea00 (@DiarioBitcoin) <a href=\"https:\/\/twitter.com\/DiarioBitcoin\/status\/2034181543657169250?ref_src=twsrc%5Etfw\">March 18, 2026<\/a><\/p>\n<\/blockquote>\n<p>\u00a0<\/p>\n<p>La carrera por construir agentes de inteligencia artificial capaces de buscar, contrastar y sintetizar informaci\u00f3n en la web se ha convertido en uno de los frentes m\u00e1s intensos de la industria. Hasta ahora, gran parte de ese avance se hab\u00eda concentrado en grandes tecnol\u00f3gicas, no solo por su acceso a c\u00f3mputo, sino tambi\u00e9n por el control de datasets especializados que rara vez se publican de forma completa.<\/p>\n<p>En ese contexto aparece OpenSeeker, un proyecto presentado en el paper <a href=\"https:\/\/arxiv.org\/pdf\/2603.15594\">OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data<\/a>, firmado por Yuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai y Siheng Chen, todos vinculados a la Universidad Jiao Tong de Shangh\u00e1i. La propuesta se define como el primer agente de b\u00fasqueda totalmente abierto, tanto en modelo como en datos, que alcanza desempe\u00f1o de frontera en tareas de b\u00fasqueda web.<\/p>\n<p>El anuncio tiene peso por una raz\u00f3n central. En los agentes de b\u00fasqueda modernos no basta con un gran modelo de lenguaje generalista. Tambi\u00e9n hacen falta ejemplos de entrenamiento que ense\u00f1en a navegar p\u00e1ginas, decidir qu\u00e9 consultar, filtrar ruido y encadenar varias acciones antes de llegar a una respuesta verificable.<\/p>\n<p>Seg\u00fan los autores, esa escasez de datos transparentes ha frenado durante casi un a\u00f1o a la comunidad de investigaci\u00f3n abierta. OpenSeeker busca cerrar esa brecha con la liberaci\u00f3n del c\u00f3digo, el dataset y los pesos del modelo, en un intento expl\u00edcito por democratizar el desarrollo de agentes avanzados de b\u00fasqueda.<\/p>\n<h3>Qu\u00e9 propone OpenSeeker y por qu\u00e9 importa<\/h3>\n<p>El trabajo parte de una idea simple, pero dif\u00edcil de ejecutar. Si las mejores capacidades de b\u00fasqueda est\u00e1n encerradas detr\u00e1s de modelos propietarios, el ecosistema abierto necesita no solo copiar arquitecturas, sino construir una receta completa. Esa receta incluye preguntas complejas, respuestas correctas y trayectorias de uso de herramientas que ense\u00f1en al sistema a razonar paso a paso.<\/p>\n<p>Para eso, el equipo desarroll\u00f3 dos innovaciones t\u00e9cnicas. La primera se llama s\u00edntesis de preguntas y respuestas escalable, controlable y basada en hechos. La segunda, s\u00edntesis de trayectorias con eliminaci\u00f3n de ruido. Juntas buscan generar datos dif\u00edciles, \u00fatiles y verificables para entrenar agentes que no se limiten a recuperar un dato obvio desde memoria param\u00e9trica.<\/p>\n<p>En t\u00e9rminos pr\u00e1cticos, OpenSeeker intenta fabricar problemas que obliguen a un modelo a explorar la web. Para lograrlo, reconstruye relaciones entre p\u00e1ginas y entidades a partir de la topolog\u00eda de enlaces, genera preguntas de varios saltos l\u00f3gicos y adem\u00e1s oculta entidades concretas con descripciones ambiguas para evitar que el sistema resuelva todo con una b\u00fasqueda directa por palabras clave.<\/p>\n<p>Ese dise\u00f1o importa porque muchos modelos parecen buenos en benchmarks simples, pero se derrumban cuando deben planificar una investigaci\u00f3n m\u00e1s larga. En agentes de b\u00fasqueda, la dificultad no est\u00e1 solo en encontrar un enlace, sino en decidir qu\u00e9 consultar, interpretar resultados ruidosos y mantener una estrategia coherente durante decenas de pasos.<\/p>\n<h3>C\u00f3mo se construy\u00f3 el dataset abierto<\/h3>\n<p>La s\u00edntesis de preguntas comienza con una representaci\u00f3n de la web como un grafo dirigido, donde las p\u00e1ginas son nodos y los enlaces son conexiones. A partir de una p\u00e1gina semilla elegida al azar, el sistema expande el subgrafo local para capturar un conjunto de p\u00e1ginas relacionadas. Luego extrae entidades centrales y las reorganiza en un subgrafo m\u00e1s compacto, enfocado en la l\u00f3gica de razonamiento y no en el ruido textual.<\/p>\n<p>Sobre esa estructura, el generador crea preguntas iniciales cuya resoluci\u00f3n exige recorrer varios enlaces conceptuales. Despu\u00e9s aplica un proceso de \u201cofuscaci\u00f3n de entidades\u201d, que reemplaza nombres concretos por descripciones vagas. As\u00ed, una consulta deja de ser un simple ejercicio de recuperaci\u00f3n directa y pasa a exigir desambiguaci\u00f3n y navegaci\u00f3n multi paso.<\/p>\n<p>El paper detalla adem\u00e1s un esquema de verificaci\u00f3n por rechazo con dos criterios. El primero mide dificultad: si un modelo base puede contestar correctamente sin herramientas externas, la muestra se descarta. El segundo mide resolubilidad: si el mismo modelo, recibiendo el subgrafo de entidades como contexto or\u00e1culo, no consigue derivar la respuesta, tambi\u00e9n se elimina porque la cadena l\u00f3gica ser\u00eda inconsistente.<\/p>\n<p>La otra mitad del sistema se concentra en la calidad de las trayectorias. Durante la s\u00edntesis, un modelo secundario resume respuestas anteriores de herramientas para limpiar el contexto y permitir que el modelo maestro produzca razonamientos y acciones de mayor calidad. Sin embargo, en entrenamiento, el estudiante aprende desde el historial crudo. La meta es que internalice esa capacidad de filtrar ruido por s\u00ed mismo.<\/p>\n<p>Este enfoque asim\u00e9trico es clave. El profesor genera decisiones usando un historial resumido y m\u00e1s legible. El alumno se entrena para imitar esas decisiones, pero mirando respuestas completas y desordenadas. Con ello, los autores buscan que el modelo final soporte mejor la realidad del contenido web, donde abundan men\u00fas, textos irrelevantes y se\u00f1ales confusas.<\/p>\n<div class=\"diari-in-content-middle\" id=\"diari-1642215874\">\n<div id=\"diari-1812525504\" data-diari-trackid=\"195495\" data-diari-trackbid=\"1\" class=\"diari-target diari-target\"><\/div>\n<\/div>\n<h3>Resultados frente a agentes abiertos y competidores industriales<\/h3>\n<p>OpenSeeker fue afinado sobre Qwen3-30B-A3B-Thinking-2507, un modelo con 30.000 millones de par\u00e1metros totales y 3.000 millones activados durante la predicci\u00f3n. El contexto m\u00e1ximo fue de 256k tokens y el l\u00edmite de llamadas a herramientas se fij\u00f3 en 200. El entrenamiento se realiz\u00f3 en una sola corrida, sin filtrado heur\u00edstico adicional ni ajuste fino de hiperpar\u00e1metros.<\/p>\n<p>El dataset utilizado incluy\u00f3 10,3k muestras en ingl\u00e9s y 1,4k en chino, para un total de 11,7k ejemplos sint\u00e9ticos. A pesar de ese volumen relativamente modesto, el sistema report\u00f3 resultados destacados en cuatro benchmarks: BrowseComp con 29,5%, BrowseComp-ZH con 48,4%, xbench-DeepSearch con 74,0% y WideSearch con 59,4% de item F1 en ingl\u00e9s.<\/p>\n<p>Entre los proyectos totalmente abiertos de escala similar, OpenSeeker super\u00f3 claramente a DeepDive-32B. En BrowseComp obtuvo 29,5% frente a 15,3%, y en BrowseComp-ZH logr\u00f3 48,4% frente a 29,7%. Tambi\u00e9n qued\u00f3 muy por encima de MiroThinker-32B-DPO-v0.1, que marc\u00f3 13,0% en BrowseComp y 17,0% en BrowseComp-ZH.<\/p>\n<p>Uno de los datos m\u00e1s llamativos es su comparaci\u00f3n con Tongyi DeepResearch, un sistema industrial entrenado con preentrenamiento continuo, SFT y aprendizaje por refuerzo. En BrowseComp-ZH, OpenSeeker alcanz\u00f3 48,4% contra 46,7% de Tongyi. En BrowseComp en ingl\u00e9s, Tongyi mantuvo ventaja con 43,4% frente a 29,5%, pero el resultado en chino refuerza la tesis central del paper: la calidad de los datos puede compensar parte de la diferencia de recursos.<\/p>\n<p>En xbench-DeepSearch, OpenSeeker marc\u00f3 74,0%, apenas por debajo de 75,0% de Tongyi DeepResearch y por encima de varios rivales abiertos y cerrados de gran escala. En WideSearch EN registr\u00f3 59,4%, cerca de 60,0% de OpenAI o3 y por encima de WebLeaper-30B, que obtuvo 44,1%.<\/p>\n<h3>La calidad de los datos por encima del volumen<\/h3>\n<p>Los autores enfatizan un punto que toca el centro del debate actual en IA. M\u00e1s datos no siempre implican mejores agentes si esos datos no ense\u00f1an razonamiento largo y uso efectivo de herramientas. OpenSeeker us\u00f3 11,7k muestras, mientras que MiroThinker report\u00f3 147k en su versi\u00f3n SFT, pero aun as\u00ed qued\u00f3 claramente atr\u00e1s en varias pruebas.<\/p>\n<p>La comparaci\u00f3n bajo el mismo esquema de entrenamiento tambi\u00e9n favorece a OpenSeeker. Frente a agentes entrenados solo con SFT, el proyecto acad\u00e9mico fue el mejor promedio entre cuatro benchmarks. En BrowseComp-ZH, por ejemplo, super\u00f3 a WebSailor-V2-30B-SFT por casi 20 puntos porcentuales, con 48,4% frente a 28,3%.<\/p>\n<p>El paper tambi\u00e9n compara su dataset con combinaciones de datos de WebSailor-V2 y WebLeaper bajo vol\u00famenes parecidos, entre 10k y 15k muestras. OpenSeeker-v1-Data-11.7k obtuvo 29,50 en BrowseComp, 74,00 en xbench y 59,40 en WideSearch-EN. La mejor combinaci\u00f3n comparable reportada alcanz\u00f3 27,67, 66,00 y 44,07, respectivamente.<\/p>\n<p>Otro elemento relevante es la dificultad de los ejemplos. En la evaluaci\u00f3n interna, su dataset chino mostr\u00f3 trayectorias mucho m\u00e1s largas que BrowseComp-ZH. Promedi\u00f3 46,35 llamadas a herramientas y 76,1k tokens, frente a 26,98 llamadas y 15,1k tokens del benchmark. En ingl\u00e9s, la dificultad fue comparable a BrowseComp-EN, aunque el equipo admite que esa parte del dataset a\u00fan no ha sido actualizada al est\u00e1ndar m\u00e1s reciente.<\/p>\n<p>En la secci\u00f3n dedicada a trabajos concurrentes, el estudio tambi\u00e9n compara OpenSeeker con OpenResearcher y REDSearcher. Seg\u00fan los autores, OpenResearcher se apoya m\u00e1s en agregaci\u00f3n de datasets abiertos existentes y simulaci\u00f3n de trayectorias, mientras que REDSearcher combina mid-training, SFT y RL sin plena transparencia del protocolo. En ese marco, OpenSeeker se presenta como la primera iniciativa puramente acad\u00e9mica con datos 100% abiertos y rendimiento de referencia.<\/p>\n<p>El valor de esta publicaci\u00f3n va m\u00e1s all\u00e1 de un leaderboard. En un momento en que la industria de IA se mueve hacia agentes que investigan, compran, programan o toman decisiones en varias etapas, abrir el acceso a datasets de alta fidelidad puede alterar el equilibrio entre laboratorios corporativos y academia. Para comunidades tecnol\u00f3gicas cercanas al software libre, blockchain o infraestructura abierta, esa se\u00f1al es dif\u00edcil de ignorar.<\/p>\n<p>Los autores sostienen que su trabajo apenas representa un piso y no un techo. Reconocen limitaciones de recursos, una sola corrida de entrenamiento y espacio para mejorar filtrado, distribuci\u00f3n de datos y complejidad. Pero precisamente por eso el mensaje resulta potente: incluso con restricciones, un equipo universitario consigui\u00f3 acercarse al estado del arte y, en un benchmark en chino, incluso superarlo.<\/p>\n<hr>\n<p>Imagen original de\u00a0<i>DiarioBitcoin<\/i>, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio P\u00fablico<\/p>\n<p>Este art\u00edculo fue escrito por un redactor de contenido de IA<\/p>\n<div class=\"footer-entry-meta\"><\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Un equipo de la Universidad Jiao Tong de Shangh\u00e1i present\u00f3 OpenSeeker, un agente de b\u00fasqueda con IA que no solo libera sus pesos, sino tambi\u00e9n [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":131374,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2,1],"tags":[17688,1742,285,9923,10046,893,1268,31142],"class_list":["post-131373","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-crypto","category-noticias","tag-agente","tag-busqueda","tag-crypto","tag-desafia","tag-gigantes","tag-libera","tag-noticias","tag-openseeker"],"_links":{"self":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts\/131373","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/comments?post=131373"}],"version-history":[{"count":0,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/posts\/131373\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/media\/131374"}],"wp:attachment":[{"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/media?parent=131373"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/categories?post=131373"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/pongara.net\/news\/wp-json\/wp\/v2\/tags?post=131373"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}