Help:Converting/nl
Het converteren van een document van het ene formaat naar het andere voor Commons kan nuttig zijn
- om derivaten toegankelijker te maken;
- omdat elk formaat zijn eigen voordelen heeft;
- als u 2 of meer boeken tegelijk open moet hebben, in verschillende browsers.
Het kan dus een goed idee zijn om boeken in meer dan één formaat te hebben.
PDF converteren
- Hoewel PDF-documenten door Commons worden aanvaard, kunnen zij toch moeilijk te lezen zijn.
Converteren van PDF naar DjVu
Converteren van PDF naar afbeeldingen
Van PDF-pagina's naar afbeeldingen.
Teksten uit PDF ophalen
Als de PDF de tekst in een gemakkelijk te extraheren vorm bevat, gebruik dan een van de volgende opties:
- Adobe Acrobat viewer's "Opslaan als tekst"
- Ghostscript "Bewerken" / "Tekstuittreksel..."
- STDUViewer's menu-item Bestand -> Exporteren -> naar tekst
- Xpdf commandoregel hulpmiddelen pdftotext, pdftohtml.
Anders, als de PDF tekst als afbeeldingen bevat:
- Volg het advies in "Converteren van PDF naar afbeeldingen" hierboven, volg dan het advies in "Afbeeldingsformaten converteren naar tekst (OCR)" hieronder.
DjVu converteren
Het omzetten van DjVu naar andere formaten is nuttig omdat iemand misschien geen DjVu-viewer heeft geïnstalleerd en andere formaten gemakkelijk in de browser kunnen worden bekeken.
Converteren van DjVu naar PDF
Converteren van DjVu naar afbeeldingen
Gebruik DjVuLibre, opdrachtregelhulpprogramma's, ddjvu (DjVu-decoder) of djvups (om te converteren naar PostScript).
Teksten uit DjVu ophalen
WinDjView kan dat doen of DjVuLibre commandoregel hulpmiddel djvutxt.
Afbeeldingen converteren
Tussen afbeeldingsformaten converteren
- Gebruik de (gratis voor persoonlijk gebruik) shareware IrfanView of XnView (en zijn opdrachtregelprogramma NConvert), jpegcrop of de vrije software ImageMagick voor geavanceerde transformaties
Gescande afbeeldingen verwerken
Beelden die worden verkregen via de scanner vereisen meestal een beetje verwerking voordat ze naar een PDF of DJVU worden omgezet: knippen, draaien, splitsen, het verkleinen, omzetten in TIFF, enz. De open source applicatie ScanTailor-Universal is hiervoor ontworpen. Het kan worden gedownload vanaf de release pagina van het project.
PDF maken van afbeeldingen
- img2pdf, een open source commando-regel programma, is ontworpen om beelden zonder verlies te omzetten in PDF. Het kan ook metadata (zoals de titel en de auteur) en hoe het resulterende PDF-bestand moet worden gepresenteerd door een PDF-viewer instellen.
Het volgende commando neemt alle bestanden in de huidige map en zet ze om in een PDF met de naam test.pdf
met titel- en auteursmetadata:
img2pdf --title "My First PDF" --author "Jack Example" --output test.pdf *
Let op dat dit ervan uitgaat dat de huidige map geen niet-afbeeldingsbestanden of submappen bevat. Als alle bronbestanden van één type zijn, zoals JPEG's, kunt u in plaats daarvan *.jpg
als de input vermelden. U kunt ook meerdere invoerbestanden individueel specificeren.
Zie img2pdf --help
om te kijken wat img2pdf allemaal kan.
img2pdf is beschikbaar uit de Python Package Index en is ook opgenomen in de repositories van veel Linux-distributies. Een Windows-uitvoerbaar bestand is ook beschikbaar via Appveyor.
- ImageMagick en GraphicsMagick kunnen ook worden gebruikt om afbeeldingen naar PDF-bestanden te converteren, als GhostScript is geïnstalleerd.
Het volgende commando gebruikt het hulpmiddel magrify van ImageMagick om alle JPEG-bestanden om te zetten in individuele PDF-bestanden en ze in een submap met de naam "pdf" te plaatsen:
mogrify -format pdf -path pdf/ *.jpg
Op sommige Linux-distributies blokkeert het standaardbeveiligingsbeleid van ImageMagick het programma om PDF-bestanden te beheren. Zie deze StackOverflow vraag voor het veranderen van het beveiligingsbeleid.
PDF maken van bitonale afbeeldingen
Bitonale afbeeldingen (d.w.z. afbeeldingen die slechts één tint zwart-wit bevatten) zijn een zeer efficiënte manier om gescande documenten op te slaan die alleen tekst of andere eenvoudige elementen bevatten die slechts twee kleuren nodig hebben om duidelijk te worden weergegeven. Een bitonale tekstpagina van hoge kwaliteit is gewoonlijk slechts tientallen kilobytes groot.
Er zijn twee bitonale compressiemethoden die worden gebruikt in PDF-bestanden, namelijk de CCITT Groep 4 Faxcompressie en de JBIG2 compressie. Dit laatste is efficiënter, maar er zijn enkele vermeende patentproblemen aan verbonden, waardoor JBIG2-coderingsfunctionaliteit vaak ontbreekt of is uitgeschakeld in software voor het maken van PDF's. Soms is het echter mogelijk om dergelijke functionaliteit in te schakelen door de encoder zelf te installeren.
Er zijn een aantal hulpmiddelen voor het omzetten van afbeeldingen met behulp van bitonale compressie. ScanTailor-Universal is een open source hulpmiddel voor het verwerken van gescande pagina's die bitonale afbeeldingen kan uitvoeren. ImageMagick en GraphicsMagick kunnen dit ook doen met de optie -threshold
.
De volgende opdracht van ImageMagick zet alle .jpg bestanden om in een map in bitonale TIF-bestanden met behulp van groep 4-compressie en plaatst ze in een map met de naam "bitonal":
mogrify -format tif -compress Group4 -path bitonal/ -threshold 50% *.jpg
Speel met de waarde van -threshold
om een drempel te vinden die goede resultaten oplevert voor uw inhoud.
JBIG2 conversie
OCRmyPDF is een open-source opdrachtregelprogramma dat voornamelijk is ontworpen om een OCR tekstlaag naar gescande PDF-bestanden te zetten. Een van de extra functies is de mogelijkheid om PDF-bestanden te optimaliseren, waaronder de conversie van andere bitonale afbeeldingsindelingen naar JBIG2. Dit vereist de installatie van de jbig2enc encoder. Compilatie- en installatie-instructies voor Linux-gebruikers zijn beschikbaar, en er is een Windows-uitvoerbaar bestand van derden beschikbaar. De MacOS-versie die in Homebrew is verpakt, bevat al jbig2enc.
Lees dit voor het installeren van OCRmyPDF op Windows. Veel Linux-distributies worden geleverd met een OCRmyPDF-pakket dat in de repositories is opgenomen, hoewel dit verouderd kan zijn. OCRmyPDF is ook beschikbaar op pip.
De volgende opdracht maakt gebruik van OCRmyPDF om een OCR-tekstlaag aan een PDF toe te voegen en rangschikt de PDF op een manier die een webbrowser in staat stelt deze weer te geven voordat deze volledig is gedownload:
ocrmypdf --output-type pdf --fast-web-view 0 test.pdf test-OCR.pdf
OCRmyPDF optimaliseert standaard lossless de PDF, zodat bitonale afbeeldingen automatisch worden geconverteerd naar JBIG2 als jbig2enc is geïnstalleerd.
Als u het OCR-proces wilt overslaan omdat u de PDF niet hoeft te OCR'en, gebruikt u --tesseract-timeout 0
.
OCRmyPDF's documentatie met meer gebruiksvoorbeelden
DjVu maken van afbeeldingen
Gebruik DjVuLibre commando-regel hulpprogramma's c44 (voor kleurenafbeeldingen) en cjb2 (voor bitonale afbeeldingen) om afbeeldingen te converteren naar DjVu-bestanden van één pagina, en voeg ze daarna samen met djvm.
Voorbeeld c44 commando-regel:
c44 [options] pnm-or-jpeg-file [djvufile]
De belangrijke opties zijn -slice, -dpi en -mask. -slice stelt het aantal "slices/delen" in elke "chuck/brok" in (wat enkele lastige DjVu-termen zijn). Het geven van drie getallen betekent dat er drie "brokken" zullen zijn, en vier getallen zullen resulteren in vier brokken. Deze getallen hebben een ernstige invloed op de kwaliteit en grootte - experimenteer en controleer de documentatie.
c44 -slice -slice 74+13+10 -dpi 150 pnm-or-jpeg-file [djvufile]
Uit de zelfverklarende hulp van de cjb2 bitonale encoder:
Usage: cjb2 [options] <input-pbm-or-tiff> <output-djvu> Options are: -verbose Display additional messages. -dpi <n> Specify image resolution (default 300). -clean Cleanup image by removing small flyspecks. -lossy Lossy compression (implies -clean as well) -losslevel <n> Loss factor (implies -lossy, default 100) Encoding is lossless unless a lossy options is selected.
In veel gevallen kan -losslevel onschadelijk worden ingesteld op 50.
Meer informatie: DjVuLibre-documentatie
Minidjvu maakt het mogelijk om zwart-wit TIFF, BMP en PBM met één en meerdere pagina's om te zetten naar DjVu en omgekeerd. Het heeft een eenvoudige grafische shell. De ondersteuning voor TIFF-bestanden met meerdere pagina's is een opmerkelijk voordeel ten opzichte van DjVuLibre-hulpmiddelen.
minidjvu 0.8 - encode/decode bitonal DjVu files Usage: single page encoding/decoding: minidjvu [options] <input file> <output file> multiple pages encoding: minidjvu [options] <input file> ... <output file> Formats supported: DjVu (single-page bitonal), PBM, Windows BMP, TIFF. Options: -A, --Averaging: compute "average" representatives -a <n>, --aggression <n>: set aggression level (default 100) -c, --clean remove small black pieces -d <n> --dpi <n>: set resolution in dots per inch -e, --erosion sacrifice quality to gain in size -i, --indirect: generate an indirect multipage document -l, --lossy: use all lossy options (-s -c -m -e -A) -m, --match: match and substitute patterns -n, --no-prototypes: do not search for prototypes -p <n>, --pages-per-dict <n>: pages per dictionary (default 10) -r, --report: report multipage coding progress -s, --smooth: remove some badly looking pixels
- DjVuSolo kan DjVu-bestanden aanmaken.
- Er zijn enkele geavanceerde scripts beschikbaar om de klus te klaren.
Afbeeldingsformaten converteren naar tekst (OCR)
gImageReader
- gImageReader is een open source applicatie voor het extraheren van tekst uit afbeeldingen en op afbeeldingen gebaseerde PDF-documenten. Het is in staat om automatisch de lay-out van tekst te detecteren en de herkend tekst te verwerken, inclusief spelcontrole en verwijdering van lijnbreuken. Het gebruikt Tesseract voor tekstherkenning en ondersteunt als zodanig dezelfde talen als Tesseract.
IrfanView
- Gebruik IrfanView's Optiemenu "Start OCR" plugin (OCR is Optische tekenherkenning) om de tekst te extraheren. Vanaf 20-02-2010 is de KADMOS OCR-plug-in voor Irfanview beperkt tot ongeveer zes pagina's, afhankelijk van het vrije geheugen van uw computer (ongeveer één gigabyte nodig per 10 pagina's).
Pdf X-Change viewer
- Gebruik PDF-XChange Viewer's OCR functie: Document -> OCR pagina's.
Tesseract engine
- Gebruik de vrije Open Source Tesseract-software (Linux, Mac OS X of Windows):
- zowel de "tesseract"-software als de "tessdata"-taalpakketten downloaden die relevant zijn voor de talen of scripts die in het gescande document voorkomen, en deze in dezelfde map uitpakken; er is geen installatie nodig voor het uitvoerbare Windows-bestand
- een scan met de hoogst mogelijke resolutie verkrijgen en indien nodig de scanafbeelding verder vergroten (gebruik snel formaat wijzigen, vermijd resample-filters) totdat tekens meer dan 20 pixels hoog zijn (experimenteer voor de beste resultaten) en sla deze op (gebruik ImageMagick of IrfanView)
- gebruik het commando tesseract IMAGEFILE OUTPUT
eScriptorium
- Gebruik de vrije Open Source software eScriptorium met Kraken. De servercomponent kan worden geïnstalleerd op Linux, macOS of Windows (met WSL). De clientzijde is een webapplicatie die in elke moderne webbrowser werkt. Het maakt segmentatie van tekstsegmenten en -lijnen en herkenning van gedrukte tekst en handschrift mogelijk. Zowel segmentatie als herkenning kunnen worden getraind.
Google heeft OCR. Zie:
- https://tools.wmflabs.org/ws-google-ocr/
- https://wikisource.org/wiki/Wikisource:Google_OCR
- https://cloud.google.com/vision/docs/ocr
In alle gevallen moet u de afdelingen converteren. U moet de gegenereerde tekst handmatig corrigeren omdat de conversie niet perfect is.
Video converteren
Zie Video converteren.
Overige help
U kunt om hulp vragen bij de Helpdesk.