URL has been copied successfully!
Inicio Tendencia Baidu presenta Unlimited OCR, la IA que puede leer libros completos de una sola vez y supera a DeepSeek OCR

Baidu presenta Unlimited OCR, la IA que puede leer libros completos de una sola vez y supera a DeepSeek OCR

por 6wnews-leslie mobtx
158,8K Veces Visto

La inteligencia artificial continúa transformando el procesamiento de documentos. Ahora, Baidu presentó Unlimited OCR, un nuevo sistema de reconocimiento óptico de caracteres (OCR) que promete resolver uno de los mayores problemas de esta tecnología: analizar documentos muy extensos sin que aumente el consumo de memoria ni disminuya la velocidad.

Según sus desarrolladores, el modelo es capaz de procesar libros completos, manuales, informes y documentos de decenas de páginas en una sola ejecución, algo que los sistemas tradicionales aún tienen dificultades para realizar.

¿Por qué los OCR tradicionales son más lentos con documentos largos?

Los modelos actuales basados en arquitecturas Transformer analizan cada palabra teniendo en cuenta todo el texto generado previamente.

Esto provoca que, conforme aumenta el tamaño del documento:

  • Crezca el consumo de memoria.
  • Aumenten los cálculos necesarios.
  • Disminuya la velocidad de procesamiento.
  • Se requieran más recursos de GPU.

Por esa razón, la mayoría de plataformas OCR dividen los documentos página por página en lugar de analizarlos como una sola unidad.

La inspiración vino de la memoria humana

Los investigadores de Baidu decidieron inspirarse en la forma en que trabajan las personas al copiar un libro.

En lugar de recordar cada palabra escrita anteriormente, una persona normalmente solo mantiene en la memoria:

  • El documento original.
  • Las últimas palabras escritas.
  • La siguiente palabra que va a copiar.

El resto deja de ocupar espacio en la memoria de trabajo.

Con esa idea nació Reference Sliding Window Attention (R-SWA).

Así funciona Unlimited OCR

La principal innovación consiste en que el modelo siempre mantiene acceso al documento original, pero solo conserva una pequeña parte del texto que ya ha generado.

De esta manera evita que la memoria siga creciendo conforme avanza el procesamiento.

El resultado es un uso prácticamente constante del llamado KV Cache, uno de los componentes que más memoria consume en los modelos basados en Transformers.

Más velocidad y mayor precisión

Unlimited OCR fue construido sobre la arquitectura de DeepSeek OCR, pero reemplazando el mecanismo tradicional de atención por R-SWA.

Además incorpora:

  • Un DeepEncoder, que comprime imágenes grandes en apenas 256 tokens visuales.
  • Un decodificador Mixture of Experts (MoE) con 3 mil millones de parámetros, aunque solo activa aproximadamente 500 millones durante la inferencia.

De acuerdo con los investigadores, el sistema no solo consume menos memoria, sino que también mejora la precisión en:

  • Reconocimiento de texto.
  • Extracción de fórmulas matemáticas.
  • Interpretación de tablas.
  • Comprensión del orden de lectura de documentos.

Puede analizar libros completos de una sola vez

Durante las pruebas, Unlimited OCR logró procesar documentos de:

  • 2 páginas.
  • 5 páginas.
  • 10 páginas.
  • 20 páginas.
  • Más de 40 páginas.

Todo ello sin reiniciar el contexto entre cada página, permitiendo mantener la coherencia durante el análisis de libros completos, manuales técnicos y artículos científicos.

Los investigadores también reportaron mejoras de aproximadamente 35% en velocidad respecto a DeepSeek OCR cuando el tamaño del documento aumenta.

Una tecnología con aplicaciones más allá del OCR

Los desarrolladores consideran que la técnica Reference Sliding Window Attention podría utilizarse en muchos otros modelos de inteligencia artificial.

Entre las posibles aplicaciones destacan:

  • Transcripción automática de audio.
  • Traducción de textos extensos.
  • Reconocimiento de voz.
  • Sistemas multimodales capaces de procesar imágenes, videos y documentos largos.

En lugar de aumentar indefinidamente el contexto que recuerda la IA, la propuesta apuesta por un enfoque diferente: recordar únicamente lo necesario.

Con este avance, Baidu plantea una nueva forma de construir modelos de inteligencia artificial más eficientes, rápidos y escalables para trabajar con grandes volúmenes de información.

Tambien te puede interesar

6W News – La prensa digital que no se vende, pero sí se comparte.
En 6w.news nuestra esencia se fundamenta en la técnica periodística de las 6W: Who, What, When, Where, Why y How. Creemos que una noticia solo cobra sentido cuando responde a estas preguntas clave.

Deportes

Mundo

Local

6w.news All Right Reserved. Designed, Produced & Developed byMobTx