Inteligência Artificial da China domina 50 idiomas e funciona em smartphones

Novidade importante: o PaddleOCR, um software de inteligência artificial originário da China, acaba de anunciar uma nova versão capaz de “ler” texto presente em imagens em 50 idiomas distintos. A tecnologia conhecida como OCR (Reconhecimento Óptico de Caracteres) permite transformar fotografias de documentos, placas ou telas em texto editável através do computador. O novo lançamento recebe o nome de PP-OCRv6 e apresenta três tamanhos diferentes, que vão desde dispositivos móveis até servidores robustos.

A chegada do PP-OCRv6 marca um avanço significativo no campo do reconhecimento óptico de caracteres, sendo a mais recente atualização da linha de modelos universais de OCR desenvolvidos pelo PaddleOCR. Este modelo foi projetado para operar em ambientes reais, incluindo documentos físicos, capturas de tela, imagens multilíngues e displays digitais. O destaque dessa versão está na combinação entre alta precisão e leveza computacional, sendo oferecida em três escalas que variam entre 1,5 milhão e 34,5 milhões de parâmetros.

A nova arquitetura, que foi apresentada em um artigo técnico no blog da Hugging Face, traz melhorias notáveis em comparação à versão anterior. Nos testes internos realizados pelo PaddleOCR, a versão média do PP-OCRv6 alcançou uma taxa de precisão de 86,2% na detecção de texto e 83,2% na acurácia do reconhecimento — representando um aumento de 4,6 pontos percentuais na detecção e 5,1 pontos percentuais no reconhecimento quando comparado ao PP-OCRv5_server.

Um dos aspectos mais relevantes do PP-OCRv6 é sua capacidade multilíngue unificada. As versões pequena e média oferecem suporte a 50 idiomas diferentes, incluindo chinês simplificado e tradicional, inglês e japonês, além de 46 línguas que utilizam o alfabeto latino. Isso elimina a necessidade da manutenção de múltiplos modelos para cada idioma em aplicações que exigem processamento internacional de texto.

No que diz respeito à arquitetura interna, o PPLCNetV4 serve como a espinha dorsal unificada tanto para a detecção quanto para o reconhecimento textual. Para a fase de detecção, os engenheiros do PaddleOCR implementaram o RepLKFPN — uma rede piramidal otimizada com grandes kernels e design leve. Esta estrutura é ideal para lidar com textos em variadas escalas, incluindo caracteres pequenos ou densos, que podem estar rotacionados ou inseridos em fundos complexos — tudo isso sem comprometer a eficiência durante a inferência.

No módulo dedicado ao reconhecimento textual, utiliza-se o EncoderWithLightSVTR que combina modelagem contextual local com atenção global. Essa abordagem melhora significativamente a qualidade do reconhecimento em textos desafiadores. Como resultado, ganhos são observados especialmente em cenários envolvendo textos multilíngues e caracteres industriais, assim como na leitura de símbolos especiais e regiões com ruído — situações comuns nos sistemas corporativos voltados à digitalização documental e automação processual.

A flexibilidade na implementação é outro grande destaque do PP-OCRv6. Ele pode ser utilizado com diversos backends de inferência por meio da interface unificada da versão 3.7 do PaddleOCR. Isso inclui o motor nativo Paddle Inference, o ONNX Runtime e um backend baseado em Transformers para aqueles que utilizam o ecossistema Hugging Face. Para instalar é simples: basta usar o comando pip install paddleocr e ajustar o parâmetro engine para paddle, onnxruntime ou transformers, conforme as necessidades específicas do ambiente produtivo.

Os resultados obtidos pelo OCR podem ser salvos tanto como imagens visualizáveis quanto como saídas estruturadas em JSON. Essa funcionalidade facilita a integração com sistemas downstream como análise documental, motores de busca e plataformas analíticas — otimizando fluxos de trabalho baseados em agentes. Com essa saída padronizada, as equipes conseguem acelerar o desenvolvimento necessário para converter documentos escaneados em dados práticos.

A comunidade open-source acolhe o PP-OCRv6 disponibilizando múltiplos formatos de modelo no Hugging Face Hub, incluindo safetensors e modelos compatíveis com Paddle Inference e ONNX. Além disso, oferece uma demonstração online interativa junto com documentação abrangente para facilitar avaliação rápida e integração — tornando-se uma ferramenta madura e eficiente ideal para projetos relacionados à digitalização documental ou automação em ambientes multilíngues.

Com informações adicionais disponíveis no HUGGINGFACE.