Vix Blog
No Result
View All Result
  • Economia
  • Educação
  • Segurança
  • Mundo
  • Negócios
  • Notícias
  • Tecnologia
  • DMCA
NEWSLETTER
  • Economia
  • Educação
  • Segurança
  • Mundo
  • Negócios
  • Notícias
  • Tecnologia
  • DMCA
No Result
View All Result
Vix Blog
No Result
View All Result

Como extrair texto de PDFs e imagens no Linux usando gImageReader

Carolina by Carolina
12 de julho de 2022
Reading Time: 10 mins read
0
Como extrair texto de PDFs e imagens no Linux usando gImageReader

RELATED POSTS

O que é DNS criptografado? Os 4 principais provedores para melhorar a privacidade e a segurança online

Não consegue fazer login no seu Mac? Experimente estas 4 dicas

O que é bateria mAh e o que ela mede?

Se você é um estudante ou seu trabalho envolve trabalhar com muitas imagens e PDFs, em algum momento você sentiu a necessidade de extrair texto de uma imagem ou documento.

Felizmente, a extração de texto torna isso possível. E existem várias ferramentas que você pode usar para fazer isso. gImageReader é uma das muitas ferramentas. É gratuito e funciona com arquivos de imagem e documentos PDF.

MAKEUSEO VÍDEO DO DIA

Vamos mergulhar para conferir o gImageReader em detalhes e ver como você pode usá-lo para extrair texto de imagens e PDFs.

O que é gImageReader?

gImageReader é um aplicativo que permite extrair texto de imagens e PDFs no Linux. É essencialmente uma GUI ou front-end para o mecanismo Tesseract OCR, um mecanismo de código aberto desenvolvido pela Hewlett-Packard que é considerado um dos melhores mecanismos de OCR disponíveis.

Com o gImageReader, você pode extrair texto de imagens ou documentos PDF de maneira fácil e precisa com apenas alguns cliques. Você pode exportar o texto extraído para um arquivo de texto ou PDF para uso posterior.


Recursos do gImageReader

O gImageReader inclui os seguintes recursos:

  • Importe documentos PDF e imagens de diferentes fontes (disco, dispositivos de digitalização, área de transferência e captura de tela)
  • Processe imagens ou documentos em lote, ou seja, extraia texto de várias imagens ou documentos de uma só vez
  • Reconhecer trechos de texto como texto simples ou documentos hOCR
  • Verificador ortográfico integrado
  • Detecção automática de área de texto
  • Edição básica de imagem/documento
  • Salvar a saída como um arquivo de texto

Como instalar o gImageReader no Linux

O gImageReader está disponível na maioria das principais distribuições Linux. Mas antes de prosseguir com a instalação, você precisa instalar o mecanismo Tesseract OCR em seu sistema.

Para isso, abra o Gerenciador de software em seu sistema e procure tesserato. Quando ele retornar uma lista de resultados, instale o tesseract-ocr e tesseract-ocr-eng pacotes. Você também pode usar gerenciadores de pacotes de linha de comando para instalar o pacote se estiver mais confortável com o terminal.

Depois disso, confira as instruções de instalação nas seções a seguir para instalar o gImageReader em seu computador.

Se você estiver no Debian ou Ubuntu, abra o terminal e execute os comandos abaixo para instalar o gImageReader:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt install gimagereader

No Fedora, CentOS ou Red Hat Enterprise Linux (RHEL):

sudo dnf install gimagereader-qt 

No Arch Linux ou Manjaro:

sudo pacman -S gimagereader

Os usuários do openSUSE podem instalar o gImageReader usando:

sudo zypper install gimagereader

Caso você esteja usando qualquer outra distribuição Linux, você pode compilar o gImageReader a partir da fonte seguindo as instruções no GitHub do gImageReader.

Como usar o gImageReader no Linux

gImageReader é muito fácil de usar e funciona com todos os tipos de arquivos de imagem, bem como documentos PDF. Siga as instruções abaixo para extrair texto de imagens ou PDFs no Linux.


Abra o menu de aplicativos, procure gImageReadere inicie o aplicativo. Acerte o Maximizar botão na janela do gImageReader para abri-lo em tela cheia.

janela principal do gimagereader

Agora, clique no Adicione imagens botão no painel esquerdo sob a barra de ferramentas e use o navegador de arquivos para selecionar a(s) imagem(ns) ou PDF(s) dos quais você deseja extrair o texto.

adicionando imagem ao gimagereader

Clique OK para importar a(s) imagem(ns) ou PDF(s) para o gImageReader. Ou, se você quiser extrair texto do que é exibido na tela, clique no menu suspenso ao lado do Adicione imagens botão e selecione Tirar captura de tela. gImageReader fará uma captura de tela do conteúdo da tela.

Depois de adicionar a imagem ao gImageReader, clique no botão Alternar painel de saída botão (um com o ícone do bloco de notas) para abrir o painel de saída. É aqui que aparece o texto que você extrai de imagens ou PDFs.

painel de saída do gimagereader

Dependendo de como você deseja proceder, agora você tem a opção de identificar o texto na imagem ou PDF de forma automática ou manual. Para fazer isso automaticamente, clique no botão Layout de detecção automática botão e destacará todos os blocos de texto na imagem ou documento PDF selecionado.


gimagereader detecção automática

Após isso, toque em Reconhecer seleção > Página atual para iniciar o processo de extração de texto.

extração de texto de detecção automática do gimagereader

Como alternativa, para selecionar o texto manualmente, passe o mouse sobre o texto que deseja extrair e, usando a cruz, desenhe uma caixa ao redor da área de onde deseja extrair o texto. Em seguida, acerte o Reconhecer seleção botão para prosseguir.

extração manual de texto do gimagereader

Se for um documento PDF e você quiser extrair texto de páginas diferentes, toque no Mais (+) para virar as páginas.

selecionando uma página em um arquivo pdf

Para voltar, aperte o botão Menos (–) botão. E então, selecione o texto que você deseja extrair e aperte o botão Reconhecer seleção botão para extraí-lo.

Embora raro, pode haver momentos em que o gImageReader retorne o texto extraído em um idioma diferente do inglês. Quando isso acontecer, basta tocar no botão suspenso ao lado Reconhecer seleção botão e selecione uma das opções em inglês.

Por fim, para salvar o texto extraído, clique no botão Salvar saída botão. Isso abrirá a janela Salvar. Aqui, dê um nome ao arquivo e pressione OK.

O que mais você pode fazer com o gImageReader?

Como mencionado anteriormente, o gImageReader também oferece a opção de modificar certos aspectos das imagens ou documentos importados, como brilho, contraste e resolução. Além disso, você também pode inverter as cores ou girar as imagens ou documentos, se necessário.

A maioria dessas opções pode ser útil quando o texto em uma imagem ou documento não é legível para o gImageReader e, portanto, impede que a ferramenta reconheça o texto.

Para acessar qualquer uma dessas opções de edição, clique no botão Controles de imagem botão, e irá revelar uma mini barra de ferramentas abaixo da barra de ferramentas principal. A partir daqui, selecione os botões apropriados para realizar a operação de edição desejada na imagem ou documento.

A extração de texto geralmente requer a ferramenta certa: uma que emprega um mecanismo de OCR confiável e preciso que permite identificar o texto em uma imagem ou documento de forma eficaz, para que você possa extraí-lo com eficiência sem problemas.

O gImageReader faz isso muito bem, graças ao mecanismo Tesseract OCR que ele usa em segundo plano. Considerando sua facilidade de uso, o gImageReader é sem dúvida uma das melhores ferramentas de extração de texto disponíveis para Linux.

Como alternativa, se você estiver procurando por uma solução mais simples, confira o TextSnatcher, que é rápido e muito fácil de usar.

Carolina

Carolina

Related Posts

O que é DNS criptografado?  Os 4 principais provedores para melhorar a privacidade e a segurança online
Notícias

O que é DNS criptografado? Os 4 principais provedores para melhorar a privacidade e a segurança online

19 de janeiro de 2023
Não consegue fazer login no seu Mac?  Experimente estas 4 dicas
Notícias

Não consegue fazer login no seu Mac? Experimente estas 4 dicas

19 de janeiro de 2023
O que é bateria mAh e o que ela mede?
Notícias

O que é bateria mAh e o que ela mede?

19 de janeiro de 2023
Qual M2 Pro Mac você deve comprar?
Notícias

Qual M2 Pro Mac você deve comprar?

19 de janeiro de 2023
8 sites freelancers menos conhecidos e de baixa concorrência
Notícias

8 sites freelancers menos conhecidos e de baixa concorrência

18 de janeiro de 2023
O que é uma compra em grupo de teclado mecânico e porquê eles funcionam?
Notícias

O que é uma tecla de via e porquê você pode fazer a sua própria?

18 de janeiro de 2023
Next Post
5 sinais de que é hora de atualizar sua placa gráfica

5 sinais de que é hora de atualizar sua placa gráfica

Obtenha desktops e laptops HP com grandes descontos

Obtenha desktops e laptops HP com grandes descontos

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

No Result
View All Result

Últimas Notícias

6 dicas e truques para ajudá-lo a ortografar melhor no seu Mac

6 razões pelas quais os alunos escolhem MacBooks

30 de março de 2023
4 correções para tentar se o Windows não usar toda a sua RAM

4 correções para tentar se o Windows não usar toda a sua RAM

30 de março de 2023
Porquê emendar o erro GeForce Now 0xc0f1103f no Windows 10 e 11

Porquê emendar o erro GeForce Now 0xc0f1103f no Windows 10 e 11

30 de março de 2023
Porquê usar seus próprios vídeos no PowerPoint para a Web

Porquê usar seus próprios vídeos no PowerPoint para a Web

30 de março de 2023
O que é memória reservada de hardware no Windows?

O que é memória reservada de hardware no Windows?

30 de março de 2023

Categorias

  • Entretenimento
  • Mundo
  • Notícias
  • Segurança
Vix Blog

Somos entusiastas da tecnologia com a missão de ensinar ao mundo como usar e compreender a tecnologia em suas vidas.
SAIBA MAIS »

Entre em contato conosco enviando um e-mail para contato@vixblog.com

Posts recentes

  • 6 razões pelas quais os alunos escolhem MacBooks
  • 4 correções para tentar se o Windows não usar toda a sua RAM
  • Porquê emendar o erro GeForce Now 0xc0f1103f no Windows 10 e 11

Categorias

  • Entretenimento
  • Mundo
  • Notícias
  • Segurança

Links Importantes

  • Quem Somos
  • Blog
  • Fale Conosco
  • Política de Privacidade
  • DMCA

© 2021 VixBlog - Notícias e dicas para o seu dia dia.

No Result
View All Result
  • Economia
  • Educação
  • Segurança
  • Mundo
  • Negócios
  • Notícias
  • Tecnologia
  • DMCA

© 2021 VixBlog - Notícias e dicas para o seu dia dia.