Como extrair texto de um documento PDF

Pode ser muito frustrante tentar extrair o texto de um arquivo PDF para usá-lo em outro aplicativo.

Extraia o texto usando o Acrobat Reader

Passo 1

Abra o arquivo no Acrobat Reader. No Windows, selecione "Arquivo -> Exportar documento de texto", nomeie o documento e salve-o.

Passo 2

Em um sistema operacional Mac ou Linux, copie o texto acessando o menu "Visualizar" e selecionando "Contínuo" ou "Orientação contínua". (A primeira opção fornecerá o texto em uma coluna, enquanto a segunda opção formatará o texto como páginas lado a lado). Vá em "Editar -> Selecionar tudo" e depois "Editar -> Copiar".

Passo 3

Use a ferramenta Selecionar se você quiser apenas extrair parte do texto. Clique na ferramenta "Selecionar texto" e escolha as informações desejadas. Em um documento com vários formatos de coluna, você terá que usar a primeira ferramenta "Seleção de Coluna". Vá em "Editar -> Copiar"

Converter PDF para HTML

Passo 1

Use o Gmail como um atalho. Anexe o arquivo PDF a um e-mail e envie-o para sua conta do Gmail. Quando você abrir o e-mail, verá uma série de opções ao lado do anexo. Selecione a opção "Visualizar como HTML" e salve o arquivo que é aberto em uma janela separada. Embora você não consiga ver os gráficos, o arquivo HTML mantém o formato do documento de texto.

Passo 2

Extraia e converta os arquivos na linha de comando. Os usuários do Linux podem usar um comando de conversão básico que alterará um arquivo .pdf para um arquivo .txt: "Pdftotext filename.pdf". Certifique-se de alterar o nome do arquivo com o nome do arquivo PDF.

Passo 3

Faça o download de um programa de conversão de texto em PDF. Há vários programas de código aberto e programas gratuitos disponíveis, como o PDFBox e o Easy PDF to Text Converter. Muitos desses programas também podem converter arquivos PDF em HTML.