whycomputer.com >> Počítačová školení >  >> Software

Jak extrahovat text z dokumentu PDF

Pokus o extrahování textu ze souboru PDF pro použití v jiné aplikaci může být velmi frustrující. Není neobvyklé, že se grafiky dostanou do cesty, nebo pro uspořádání dokumentu, aby bylo obtížné, aby test byl přenesen ve smysluplných větách. Ačkoli není nemožné extrahovat text s přístupem kopírování a vkládání, může to být časově náročné a neumožňuje export textu souboru PDF do jiného formátu. Existuje několik způsobů, jak extrahovat text ze souboru PDF.

Extrahovat text pomocí aplikace Acrobat Reader

Krok 1
Otevřete soubor v aplikaci Acrobat Reader. V systému Windows vyberte "Soubor -> Exportovat dokument do textu", pojmenujte dokument a uložte jej.

Krok 2
Zkopírujte text v operačním systému Mac nebo Linuxu otevřením nabídky Zobrazit a výběrem možnosti Kontinuální "nebo" Kontinuální tvář. " (První z nich vám poskytne text v jednom sloupci, zatímco text bude formátovat text jako stránky vedle sebe.) Přejděte na "Upravit -> Vybrat vše" a poté na "Upravit -> Kopírovat".
Použijte nástroj Vybrat, pokud chcete extrahovat pouze část textu. Klikněte na nástroj "Text Select" a vyberte požadované informace. V dokumentu formátovaném ve více sloupcích budete muset nejprve použít nástroj Výběr sloupců. Přejděte na "Úpravy -> Kopírovat."

Převést PDF do HTML

Krok 1
Použijte Gmail jako zástupce. Připojte soubor PDF k e-mailu a odešlete jej na svůj účet Gmail. Po otevření e-mailu se vedle přílohy zobrazí několik možností. Zvolte "Zobrazit jako HTML" a uložte soubor, který se otevře v samostatném okně. I když nebudete moci zobrazit žádnou grafiku, soubor HTML zachová formátování dokumentu.

Krok 2
Extrahujte a konvertujte soubory na příkazovém řádku. Uživatelé Linuxu mohou použít základní příkaz k převodu, který změní soubor .pdf na soubor .txt: "pdftotext filename.pdf." Nezapomeňte nahradit název souboru názvem souboru PDF.
Stáhněte program převodu do formátu PDF. Existuje celá řada open source a freeware programů, jako je PDFBox a Easy PDF to Text Converter (viz zdroje níže). Mnoho z těchto programů může také převést PDF soubory do HTML.

Tipy
Určete, zda je dokument formátován tak, aby obsahoval text i grafiku. Přístup Adobe Acrobat bude fungovat pouze v případě, že soubor PDF obsahuje oba; nebude fungovat pro soubory s obrázky. V některých případech je text v dokumentu PDF skutečně formátován jako obrázek. K tomu často dochází při skenování originálního dokumentu a při vytvoření souboru PDF ze skenovaného obrazu.
Buďte připraveni přeformátovat text při použití Acrobat Reader. Tento způsob extrakce jednoduše exportuje soubor PDF do textového souboru - nezachovává nutně zachování formátu. Pokud však stačí použít tato slova, neměl by to být problém.

Položky, které budete potřebovat

  • Soubor PDF
  • Adobe Acrobat Reader
  • Účet Gmail (volitelné)
  • Software pro převod z PDF na text (volitelné)


    URL:https://cs.whycomputer.com/Software/100100187.html

  • Software
    • Jak vytvořit dokument aplikace Word do dokumentu PDF

      Formát Portable Document Format společnosti Adobe byl navržen tak, aby formátování dokumentu bylo zachováno bez ohledu na to, kde je dokument zobrazen nebo vytištěn. Aplikace Microsoft Word ve výchozím nastavení neobsahuje možnost vytvořit soubory PDF. Nicméně existuje několik způsobů, jak vytvořit

    • Jak odebrat ochranu z PDF File

      Pokud máte v počítači soubor PDF, který je chráněn tak, abyste jej nemohli otevřít ani upravit, budete muset odstranit ochranu z tohoto souboru PDF. Pokud jste soubor PDF původně nevytvořili, budete muset k odstranění omezení v souboru použít nějaký software třetích stran. GuaPDF je program, který l

    Počítačová školení © https://cs.whycomputer.com