Se você é um estudante ou seu trabalho envolve trabalhar com muitas imagens e PDFs, em algum momento você sentiu a necessidade de extrair texto de uma imagem ou documento.
Felizmente, a extração de texto torna isso possível. E existem várias ferramentas que você pode usar para fazer isso. gImageReader é uma das muitas ferramentas. É gratuito e funciona com arquivos de imagem e documentos PDF.
Vamos mergulhar para conferir o gImageReader em detalhes e ver como você pode usá-lo para extrair texto de imagens e PDFs.
O que é gImageReader?
gImageReader é um aplicativo que permite extrair texto de imagens e PDFs no Linux. É essencialmente uma GUI ou front-end para o mecanismo Tesseract OCR, um mecanismo de código aberto desenvolvido pela Hewlett-Packard que é considerado um dos melhores mecanismos de OCR disponíveis.
Com o gImageReader, você pode extrair texto de imagens ou documentos PDF de maneira fácil e precisa com apenas alguns cliques. Você pode exportar o texto extraído para um arquivo de texto ou PDF para uso posterior.
Recursos do gImageReader
O gImageReader inclui os seguintes recursos:
- Importe documentos PDF e imagens de diferentes fontes (disco, dispositivos de digitalização, área de transferência e captura de tela)
- Processe imagens ou documentos em lote, ou seja, extraia texto de várias imagens ou documentos de uma só vez
- Reconhecer trechos de texto como texto simples ou documentos hOCR
- Verificador ortográfico integrado
- Detecção automática de área de texto
- Edição básica de imagem/documento
- Salvar a saída como um arquivo de texto
Como instalar o gImageReader no Linux
O gImageReader está disponível na maioria das principais distribuições Linux. Mas antes de prosseguir com a instalação, você precisa instalar o mecanismo Tesseract OCR em seu sistema.
Para isso, abra o Gerenciador de software em seu sistema e procure tesserato. Quando ele retornar uma lista de resultados, instale o tesseract-ocr e tesseract-ocr-eng pacotes. Você também pode usar gerenciadores de pacotes de linha de comando para instalar o pacote se estiver mais confortável com o terminal.
Depois disso, confira as instruções de instalação nas seções a seguir para instalar o gImageReader em seu computador.
Se você estiver no Debian ou Ubuntu, abra o terminal e execute os comandos abaixo para instalar o gImageReader:
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt install gimagereader
No Fedora, CentOS ou Red Hat Enterprise Linux (RHEL):
sudo dnf install gimagereader-qt
No Arch Linux ou Manjaro:
sudo pacman -S gimagereader
Os usuários do openSUSE podem instalar o gImageReader usando:
sudo zypper install gimagereader
Caso você esteja usando qualquer outra distribuição Linux, você pode compilar o gImageReader a partir da fonte seguindo as instruções no GitHub do gImageReader.
Como usar o gImageReader no Linux
gImageReader é muito fácil de usar e funciona com todos os tipos de arquivos de imagem, bem como documentos PDF. Siga as instruções abaixo para extrair texto de imagens ou PDFs no Linux.
Abra o menu de aplicativos, procure gImageReadere inicie o aplicativo. Acerte o Maximizar botão na janela do gImageReader para abri-lo em tela cheia.
Agora, clique no Adicione imagens botão no painel esquerdo sob a barra de ferramentas e use o navegador de arquivos para selecionar a(s) imagem(ns) ou PDF(s) dos quais você deseja extrair o texto.
Clique OK para importar a(s) imagem(ns) ou PDF(s) para o gImageReader. Ou, se você quiser extrair texto do que é exibido na tela, clique no menu suspenso ao lado do Adicione imagens botão e selecione Tirar captura de tela. gImageReader fará uma captura de tela do conteúdo da tela.
Depois de adicionar a imagem ao gImageReader, clique no botão Alternar painel de saída botão (um com o ícone do bloco de notas) para abrir o painel de saída. É aqui que aparece o texto que você extrai de imagens ou PDFs.
Dependendo de como você deseja proceder, agora você tem a opção de identificar o texto na imagem ou PDF de forma automática ou manual. Para fazer isso automaticamente, clique no botão Layout de detecção automática botão e destacará todos os blocos de texto na imagem ou documento PDF selecionado.
Após isso, toque em Reconhecer seleção > Página atual para iniciar o processo de extração de texto.
Como alternativa, para selecionar o texto manualmente, passe o mouse sobre o texto que deseja extrair e, usando a cruz, desenhe uma caixa ao redor da área de onde deseja extrair o texto. Em seguida, acerte o Reconhecer seleção botão para prosseguir.
Se for um documento PDF e você quiser extrair texto de páginas diferentes, toque no Mais (+) para virar as páginas.
Para voltar, aperte o botão Menos (–) botão. E então, selecione o texto que você deseja extrair e aperte o botão Reconhecer seleção botão para extraí-lo.
Embora raro, pode haver momentos em que o gImageReader retorne o texto extraído em um idioma diferente do inglês. Quando isso acontecer, basta tocar no botão suspenso ao lado Reconhecer seleção botão e selecione uma das opções em inglês.
Por fim, para salvar o texto extraído, clique no botão Salvar saída botão. Isso abrirá a janela Salvar. Aqui, dê um nome ao arquivo e pressione OK.
O que mais você pode fazer com o gImageReader?
Como mencionado anteriormente, o gImageReader também oferece a opção de modificar certos aspectos das imagens ou documentos importados, como brilho, contraste e resolução. Além disso, você também pode inverter as cores ou girar as imagens ou documentos, se necessário.
A maioria dessas opções pode ser útil quando o texto em uma imagem ou documento não é legível para o gImageReader e, portanto, impede que a ferramenta reconheça o texto.
Para acessar qualquer uma dessas opções de edição, clique no botão Controles de imagem botão, e irá revelar uma mini barra de ferramentas abaixo da barra de ferramentas principal. A partir daqui, selecione os botões apropriados para realizar a operação de edição desejada na imagem ou documento.
A extração de texto geralmente requer a ferramenta certa: uma que emprega um mecanismo de OCR confiável e preciso que permite identificar o texto em uma imagem ou documento de forma eficaz, para que você possa extraí-lo com eficiência sem problemas.
O gImageReader faz isso muito bem, graças ao mecanismo Tesseract OCR que ele usa em segundo plano. Considerando sua facilidade de uso, o gImageReader é sem dúvida uma das melhores ferramentas de extração de texto disponíveis para Linux.
Como alternativa, se você estiver procurando por uma solução mais simples, confira o TextSnatcher, que é rápido e muito fácil de usar.