Extraia o texto de documentos digitalizados com o FreeOCR

Se você já teve que copiar o texto de um arquivo PDF, imagem ou documento digitalizado, você sabe que existem duas formas de fazer isso. Você pode digitar o texto manualmente ou utilizar um programa de OCR.

FreeOCR é um programa gratuito de OCR (Reconhecimento Óptico de Caracteres) que lhe permite extrair o texto de documentos digitalizados, imagens e PDFs e salvá-lo em arquivos de texto e documentos do Word.

FreeOCR é simples de usar e oferece dois modos de operação. Você pode digitalizar documentos usando um scanner, ou abrir um arquivo de imagem ou um documento PDF que contém o texto que deseja extrair.

O documento adicionado é exibido do lado esquerdo da tela. Aqui você pode navegar pelas páginas se for um documento com várias páginas, selecionar a área da página que contém o texto que deseja extrair, etc.

Em seguida, na opção “OCR Language”, do lado direito superior da tela, escolha o idioma português “por”, depois clique no botão “OCR” e selecione se deseja extrair o texto da página atual ou de todas as páginas.

O processo de extração de texto é muito rápido e o resultado é exibido automaticamente do lado direito da tela, que funciona como um editor de texto. Por fim, você pode salvar o texto nos formatos TXT, DOC e RTF.

Em resumo, FreeOCR é uma ótima opção para extrair o texto de documentos digitalizados, arquivos PDF e imagens. Ele trabalha quase perfeitamente, especialmente em documentos com fundo branco e texto preto.

Por padrão, o FreeOCR não vem com o suporte ao idioma português. Você precisa baixar o arquivo OCR do idioma português separadamente. Para ajudá-lo, nós compilamos uma versão já com o português incluído.

Download FreeOCR (com português)

Download FreeOCR (sem português)

Sérgio Motta

Olá! Prazer em conhecê-lo(a)! Sou o fundador dos sites SoftDownload, TopFreewares e SuperTutoriais. Trabalho há duas décadas com tecnologia e criei esses sites com um objetivo simples: ajudar as pessoas a resolverem problemas e também para apresentar opções gratuitas para você usar no PC e no smartphone. Fique à vontade para explorar e aproveitar o site! Se precisar de qualquer ajuda, é só chamar!

Comentários:

Sérgio, por quê não tem em idioma Português no site do desenvolvedor?

Sérgio

Não sei. Provavelmente o desenvolvedor não quis compilar uma versão com o OCR para Português embutido.

Conforme explicado no artigo, você precisa baixar o idioma português manualmente ou então usar a versão que eu compilei.

Outra opção é usar um programa como o Easy Screen OCR, que não necessita de downloads adicionais para funcionar.

https://softdownload.com.br/converta-imagens-texto-easy-screen-ocr.html
Reply

O Windows 10 dá alerta de malware quando do download da versão com português embutido freeocr541pt.exe, e na sua instalação. Não prossegui. (26-03-2021 18:30).

Sérgio Motta

O alerta é do navegador e ele não fala que o arquivo é um malware, apenas que ele não costuma ser baixado e “pode” ser perigoso.

Isso acontece porque é uma versão modificada que eu criei incluindo o Português do Brasil e como ela é pouco baixada, o navegador exibe esse alerta.

O segundo aviso é do Windows e informa que o arquivo é de uma fonte desconhecida. Isso acontece pelo mesmo motivo acima.

Abaixo você pode ver a análise do arquivo no site VirusTotal, que examina os arquivos usando 70 antivírus diferentes:

https://www.virustotal.com/gui/file/2d2b456a84ab7b0024aca55cb71dc0aa9d016a5eeb5e4000561c28456ea890c3/detection
Reply