User:Thirunavukkarasye-Raveendran/StenoSVGtoPNGtoPDF

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search

Wie kann man aus 30.000 SVG-Dateien ein PDF erstellen?

9.3.[edit]

Hi Pythonik, meine sehr lange Antwort folgt in Kürze. Thirunavukkarasye-Raveendran (talk) 21:51, 9 March 2021 (UTC)
  • 1) Das PDF "output_16" gefällt mir am besten. 4 Bilder nebeneinander. Welche Auflösung haben die PNGs in diesem PFD? Da hätte ich bitte noch mal gerne eine Seite mit eng aneinandergereihten Bildzeilen, damit ich mal den kleinstmöglichen Zeilenabstand sehe. Beschneiden würde ich nicht, da die Zeichen manchmal bis zum Oberrand steigen. Außerdem brauche ich noch Platz für Langschrift. Am besten das PDF mal mit 4 weiteren identischen Seiten dazu, damit man mal abschätzen kann wie groß ein 1000 Seiten PDF wäre.
  • 2) Wie ziehst du die PNGs in das PDF? Welches PDF-Programm sollte ich mir dafür kaufen? Mein ABBY FinereaderPDF ist Mist dafür (teuer, hatte ich wegen OCR gekauft). Wenn ich ein Bild reinziehe, erzeugt es sofort eine eigene Seite (im Seitenverhältnis des Bildes) und das Bild belegt die gesamt Seitengröße.
  • 3) Zeitrahmen für das Projekt: Das endgültige Umwandeln macht erst in 1-2 Jahren Sinn, wenn ich alle jetzigen SVG überarbeitet habe. Unsere (noch zu erarbeitende) Lösung musst du dir also bis dahin notieren. Vielleicht gibt es ja bis dahin neue Programme die alles einfacher machen und wir treffen jetzt noch keine endgültige Entscheidung. Ich möchte jetzt nicht 1-4 Wochen für die Endredaktion des Wörterbuches opfern, da es nur halb fertig ist. Auf Wikibooks ist es besser, weil sich dort die Links automatisch aktualisieren.
  • 4) "Skript grundlinie.py diente dazu, global alle grauen Linien nun einheitlich schwarz zu zeichnen." - Das heißt du bist in der Lage die Grundlinien zu manipulieren. Dann sollten die gestrichelten Hilfslinien unbedingt in DURCHGEHENDE schwarze Linien umgewandelt, damit die PNGs überlappend im PDF angeordnet werden können. Überlappende gestrichelte Linien sieht unmöglich aus (siehe in meiner Dropbox bei den gezippten SVGs: "PDF text überlappt.pdf").
So wie ich das im SVG-Code sehe, müsste der "gestrichelt Code" rausgeworfen werden:
stroke-dasharray:3.74999998, 7.49999996;stroke-dashoffset:0;stroke-opacity:1
Dafür der "durchgezogen Code" rein:
stroke-dasharray:none
Übrigens haben die noch nicht überarbeiteten SVGs alle eine ganz schwach grauen Farbe (38 für RGB, während die Grauen Linien alle 150 sind).
Vermutlich bist du sogar in der Lage für spätere Stenotexte die Hilfslinien (ohne Grundlinie) mit Hilfe von Phyton ganz zu löschen?
  • 5) Das ist ja aus meiner Laiensicht nicht mehr weit weg von "automatischer" Texterzeugung.
    • 1. Suchen, ob es zu den Wörtern im Text eine passende SVG-Datei gibt. Falls eine solche noch fehlt deine SVG-FEHLT-Datei verwenden.
    • 2. Bei der 1. Wort-SVG den Inhalt der Ebene 1 gruppieren, und in eine Text-Ausgabedatei.svg schreiben. Die Wörter müssen nur leicht nach rechts versetzt platziert werden. Die Ausrichtung erfolgt von Hand.
    • 3. Für fehlende Worte muss ich dann noch eine SVG schreiben. Das sind gar nicht so viele.
    • 4. Dann muss ich nur noch von Hand die 20 einzeln gruppieren Wörter nach unten ausrichten, gleichmäßig horizontal verteilen und eventuell um eine halbe oder ganze (selten eineinhalb) Stufe nach oben schieben.
Man wird ja noch träumen dürfen.
Gruppen werden in SVG geschachtelt in
 <g id="g849"> gruppierteLinien </g>
Wobei 849 nur die hochgezählten Gruppen sind. Man kann also selber seine Gruppennummer auswählen so lange es nicht mit einer vorhandene kollidiert: Ab 9000 dürfte die Gruppennummer garantiert nicht schon belegt sein. Ich habe die Gruppennummer im SVG-Code problemlos ändern können.
Da alle SVG-Dateien einheitlich strukturiert sind und im SVG-Code das eigentliche Stenogramm die unterste Gruppe ist und immer beginnt mit:
<g
inkscape:groupmode="layer"
id="layer2"
inkscape:label="Stenozeichen"
style="display:inline"
sodipodi:insensitive="true">
könnte man (DU?) den gesamten folgenden Code des Stenowortes rauskopieren.
Unten nur noch das schließende </svg> wegnehmen und in die Zieldatei kopieren und als Gruppe klammern.
  • 6) Wenn man das Programmieren mit Python weiterspinnt, könnte so auch das Wörterbuch weitgehend erzeugt werden:
    • 1. Nacheinander die Quelldateien öffnen und das Stenogramm rauskopieren. Gruppieren und in die Zieldatei, was eine SVG-Seite mit 10 Grundlinien ist. Das Stenogramm wird nacheinander am festen x-y-Positionen abgelegt, immer 4 je Zeile.
    • 2. Manuell die vertikale Position des Stenogramms korrigieren, das kann man für mehrere gleichzeitig machen.
    • 3. Wenn die Seite voll ist, dann abspeichern und eine neue Seite füllen. So hat man dann relativ automatisch 1000 SVG-Seiten, in denen man immer noch etwas korrigieren kann.
    • 4. Mit einem Programm die 1000 mehrzeilig beschriebenen Wörterbuchseiten von svg in png umwandeln. Die SVGs und die PNGs müssen gleich die richtige Seitengröße haben, um sie später nur noch einzeln als jeweils ganze Seite in ein PNG zu integrieren.
    • PROBLEM: Seitengröße. Die 30.000 SVGs haben ungefähr die Größe einer DIN-A4-Seite. Die produzierte Seite mit den 10 Zeilen muss aber auch DIN-A4 sein. Es müsste also jedes Stenogramm vor dem Einfügen runterskaliert werden. Und ich befürchte, dass das nicht im SVG-Code abgelegt ist, sondern beim Runterskalieren von Inkscape in diesem Moment alles umgerechnet wird.
  • 7) "Erste Zahl: maximale Breite, zweite Zahl maximale Höhe. Das Programm staucht unter Erhaltung der Seitenverhältnisse beide Dimensionen so lange, bis das .png in dieses Raster passt." - Wir dürfen nur eine maximale HÖHE vorschreiben, damit die produzierten PNGs eine variable Breite haben können.
  • "(eventuell ist) ein Abschneiden vorteilhaft" - Lieber nicht abschneiden.
  • 8) "Es ist schade, die klaren Vektordarstellungen in ein Pixelformat zu bringen" - Der PC-Laie bevorzugt nun mal PDF, weil es selbst dann anspringt, wenn Oma einfach nur draufdrückt. Der "Profi" wird sich sowieso die gesamten SVG-Dateien auf seinen PC runterladen oder das Stenowörterbuch auf Wikibooks benutzen. In LibreOffice Writer kann ich das SVG direkt reinziehen. Muss dann aber die Größe für jedes einzeln reduzieren. Das gleiche Problem habe ich aber auch mit PNGs.
  • 9) google-Suche: "vektorgrafik in PDF einbinden"
- Vektor- bzw. Postscript-Informationen (wie auch die Informationen der PS-Schriften) bleiben beim Exportieren des PDFs automatisch erhalten und werden nicht zu Pixelgrafiken :umgewandelt.

- EPS(Vektordateien) Dateien passen angeblich in ein PDF. Inkscape kann angelblich SVG als .eps abspeichern. Tut mein Inkscape aber nicht.

  • 10) Inkscape kann zwar direkt in PDF speichern, hat aber das große Problem, dass man nicht mehrere Seiten aneinanderfügen kann. Es gibt angeblich ein Plugin dafür (google: "Inkscape mehrere Seiten speichern"), das konnte ich bei mir aber irgendwie nicht installieren.
Du schreibst "Jänner". Das erinnert mich am "Neger im Schlafrock", haben wir uns nach dem Musical am Naschmarkt noch gegönnt, war lecker. Gruß Thirunavukkarasye-Raveendran (talk) 22:25, 9 March 2021 (UTC)

@Thirunavukkarasye-Raveendran, erste kurze Antwort

  • Allgemein Den Diskussion an diese Anschrift zu verlegen: einverstanden. Und ja, die .svg scheinen sehr viel mehr automatisiserte Bearbeitung zu erlauben, als etwa .png; deshalb: auch weiterhin die Beispieltafeln als .svg erstellen. Abgesehen von der programmatischen Umwandlung der Lineatur im Hintergrund sind die anderen Bearbeitungen das Ergebnis von zu viel Handarbeit, um es sinnvoll auf 30k+ Dateien anzuwenden. "output_16" etwa sind einzelne Tafeln gewesen, erst in / mit Inkscape aus den .svg heraus als .pdf individuel abgespeichert, dann in ein gemeinsames mehrseitiges .pdf zusammengefasst, und dann «nochmal als .pdf ausgedruckt» (16 Seiten je Blatt) über einen Druckertreiber. Deshalb kann das Ergebnis so angenehm klar Details zeigen und sind die einzelnen Beispiele so im Raster angeordnet. Das alles ist aber noch auf dem Niveau «ausprobieren» von einzelnen Schritten (auch wenn auch mir "output_16" als Skizze auch mir schon jetzt mehr zusagt, als die anderen); das ist zunächst lokal, absichtlich begrenzt auf wenige Dateien. Pythonik (talk) 06:08, 11 March 2021 (UTC)


11.3.[edit]

Gegen etwas Handarbeit habe ich nichts. Das Arbeitsaufwendige ist, das ich momentan jedes Bild, dass ich ins PDF ziehe, erst mal per Hand verkleinern müsste. Ich denke, dass da bis nächstes Jahr noch irgendwelche besseren Programme entwickelt werden.
Ich habe mal in der w:Wikipedia:Auskunft nachgefragt und interessant Antworten erhalten, die ich fast nicht verstehe. Vielleicht ist ja eine Idee für dich dabei. Thirunavukkarasye-Raveendran (talk) 20:39, 11 March 2021 (UTC)


Wie könnte man 30.000 SVG-Dateien zu einem PDF-Dokument zusammenfügen?[edit]

Wie könnte ich 30.000 Dateien (Stenografie) aus der Commons:Category:SVG Deutsche Einheitskurzschrift möglichst zeitsparend zu einem PDF zusammenfügen? Die Dateien habe ich alle auf meinem Rechner. Als SVG-Programm habe ich Inkscape, womit auch die Dateien erstellt wurden. Programmieren kann ich nicht, hätte aber einen Helfer mit Python-Kenntnissen. Meine Idee wäre die SVG- in PNG-Dateien umzuwandeln und dann einzeln per Hand in einem PDF anzuordnen. Ich habe ABBY Finereader 15 für die PDF-Erstellung. Da kann ich keine SVG-Datei direkt aus meinem Browser reinziehen. Mit welchem PDF-Programm ginge das? Angeblich soll man ja in PFD auch Vektorgrafiken direkt einbinden können. Mit EPS-Dateien soll das gehen. Wie könnte ich mir die viele Handarbeit einsparen oder erleichtern? Also beispielsweise ein Programm, in das man aus dem Browser heraus gleich mehrere SVG- oder PNG-Dateien auf die Seite ziehen kann und die Dateien sich gleich verteilen und nicht als Stapel übereinander liegen bleiben. Und kosten sollte das Programm auch nicht viel. -- Benutzer Thirunavukkarasye-Raveendran|Diskussion 23:44, 9. Mär. 2021

Du könntest folgendermaßen vorgehen: Zuerst alle SVG-Dateien mittels Irfanview o.ä. in PNG-Dateien umwandeln. Dann eine Liste aller PNG-Dateien in Excel oder LibO Calc laden und zu jeder Datei eine HTML-Zeile wie <img src="A DEK Deutsche Einheitskurzschrift - Verkehrsschrift - a. D. (außer Dienst).png" height=100/> generieren. Wenn Deine Dateinamen in Spalte A steht, gibst Du z.B. in B1 ein: ="<img src="""&A1&""" height=100/>". Dann nach unten ausfüllen. Die 33.366 HTML-Tags aus Spalte B dann in eine Textdatei kopieren, HTML-Kopf und -Fuß anfügen und als HTML-Datei abspeichern. Im Browser der Wahl öffnen und mit einem PDF-Drucker in eine PDF-Datei ausdrucken. Rotkaeppchen
lassen die sich nicht in Inkscape anordnen und dann mittels eines pdf-druckers einfach als PDF drucken? 91.1.211.170
convert "A DEK*".svg Kurzschrift.pdf sollte reichen, ich weiß aber nicht, ob imagemagick unter Windows in der Kommandozeile läuft. --141.15.25.216
Bei Windows 10 ist eine Ubuntu-Konsole serienmäßig dabei. Dort sollte convert entweder enthalten oder leicht nachinstallierbar sein. --95.222.50.167
Wenn man LaTeX installiert hat, könnte man sich dafür auch (ggf. mittels Excel, siehe oben) eine Quell-Datei erstellen, die die SVG-Dateien mittels \includesvg einbindet (im Hintergrund wird dafür offenbar auch lnkscape genutzt). PDF-Ausgabe dann mittels pdflatex. (Die zuvor dargestellten Ansätze sind aber möglicherweise einfacher...) --77.87.224.99
Mit Adobe Acrobat oder Textmaker FlexiPDF kann man viele PNG automatisch zu einer PDF hinzufügen. Excel oder so braucht man nicht, ich habe das mit ca. 1000 Dateien gemacht. Ob 30.000 eine Grenze überschreitet, weiß ich nicht, dann könnte man das aber noch in Etappen machen. SVG kennen die Programme nicht. --Ralf Roletschek


12.3.[edit]

So weit ich den SVG-Code verstehe, werden die x-y-Koordinaten der Splines hintereinander angegeben, dazwischen jeweils die Koordinaten der Handler: 1. Punkt (x,y-Koordinaten), 1. Handler (x,y), 2. Handler (x-y). Für einige Buchstaben (mit Anstrich von der Grundlinie, aber auch hat man mit dem 1. Punkt die linke Grenze der gruppierten Box. Für die anderen SVGs wäre es hilfreich, wenn ich eine Kommentarzeile per Hand in jede Datei einfüge, mit drei Zahlen: linke Grenze des Schriftzuges (also der Box, grobe Zahl oder Schätzung reicht), linke Grenze (grobe Schätzung) und als dritte Zahl die Untergrenze des Schriftzuges (codiert mit "aa" für Grundlinie, "bb" für 1/2 Stufe tiefer, "cc" für eine Stufe tiefer). Wenn diese Zahlen beim Platzieren der Datei in einen längeren Text berücksichtigt werden, dann kann man das alles relativ genau platzieren. Eigentlich muss nur die Höhenausrichtung ganz exakt sein.

Die x-y-Koordinaten einer Gruppierung stehen leider nicht im Code. Beim Verschieben einer Gruppierung rechnet Inkscape die x-y-Koordinaten eines jeden Punktes um und trägt diesen dann in den SVG-Code ein.

Natürlich könnte man auch das mit analytischer Geometrie programmieren. Was aber bei Bezier-Kurven schon komplizierter wird. Man könnte aber einen Durchlauf machen, die Begrenzungslinie so als rote Linie einzeichnen und dann per Hand kontrollieren, bei welchen das Ergebnis stimmt. Zumindest für die vordere Grenze der Gruppierung gibt es für den ersten Buchstaben nur höchstens 24 mögliche Unterschiede für die die Programmierung abgestimmt werden muss. Zur manuellen Korrektur müsste ich dann nur die 3 per Programmierung gezeichneten Grenzlinien (links, rechts, unten) eventuell manuell schnell verschieben. Im 2. Durchlauf liest dann ein anderes Programm diese Grenzlinien aus und legt sie als Kommentar in die Datei.

Problematisch ist, dass die Linienverstärkung durch zusätzlich Linien erzeugt wurde. Diese sollten aber die Grenze nach vorne und hinten meist nicht beeinflussen. Diese zusätzlichen Linien sind auch zu identifizieren, weil sie weniger x-y-Punkte haben.

Ich habe tief hinten im Bücherschrank ein verstaubtes Buch, mit sieben Siegeln für mich: Computerorientierte Geometrie, Aumann, Spitzmüller, 1993, u.a. 20 Seiten über Bezier-Kurven. Könnte ich dir abfotografieren. Thirunavukkarasye-Raveendran (talk) 19:36, 12 March 2021 (UTC)


@Thirunavukkarasye-Raveendran Das Zusammenführen zahlreicher Einzelbilder in ein gemeinsames .pdf sehe ich nicht als problematisch an, ähnliches hatte ich in der Vergangenheit mehrfach mit ein paar Skripten, Kommandozeilenprogrammen und pdfLaTeX gut genug gelöst. Ein kleineres Beispiel mit chemischen Strukturformeln, um programmatisch «die interessanten Einträge» aus einem Ensemble von 64k Einträgen zu überblicken. Die einzelnen Bilder waren damals absichtlich zu gross dimensionierte .png, damit nach dem Herunterskalieren die Buchstaben gerad' noch lesbar sind. (Die Farbkodierung ist kein Zufall, traditionell sind in Modellen Sauerstoff (rotes O), Stickstoff (blaues N), etc. wiedergegeben und hier noch ein Sicherheitsnetz.) Pythonik (talk) 21:02, 12 March 2021 (UTC)

@Pythonik - Das sieht ja wirklich gut aus. Da muss ich ja nur noch mit meiner Überarbeitung fertig werden. Die chemischen Formeln lassen mich natürlich gleich von einer Erweiterung träumen: den Dateinamen (genauer: die Langschrift des Stenogramms) automatisch unter jede einzelne Datei zu setzen. Thirunavukkarasye-Raveendran (talk) 09:49, 13 March 2021 (UTC)

Bild 1
Bild 2
Bild 3

Wenn ich die 3 Grenzen des jeweiligen Stenogramms alle noch mal per Hand nachtrage, dann kann man diese danach sehr schön platzieren - nicht für ein Wörterbuch, sondern für Texte. Die drei Zahlen für Vorder-, Unter- und Hintergrenze als Kommentar einzutragen ist aber unklug, da der Kommentar bei jedem neuen Abspeichern von Inkscape überschrieben wird. Besser gefallen mir da drei Linien (RGB, stroke:#de0000; stroke:#00de00; stroke:#00de00), die mit einem Programmdurchlauf mehr oder weniger richtig platziert werden. Die kann ich dann per Hand bei Bedarf grob und schnell nachkorrigieren. Aus den Koordinaten der Linie kann dann ein Programm die drei Grenzen bei Bedarf auslesen. Dabei ist der ausgelesene Wert für die Untergrenze nur ein grobe ungenaue Angabe (im Zielintervall) und muss noch exakt auf eine der 3-4 möglichen Werte für die Untergrenze konkretisiert werden.Thirunavukkarasye-Raveendran (talk) 10:39, 13 March 2021 (UTC)

13.3.[edit]

@Thirunavukkarasye-Raveendran Kleines Beispiel für eine Anwendung des Musters aus den chemischen Formeln auf die Stenogramme. Wie die Stenogramme sind hier ihre automatisch erstellte Beschriftung / langschriftliche Form als .png Bild im .pdf. Für die chemischen Strukturbilder war das damals ausreichend (immer nur sechs Buchstaben, eventuell 2 Ziffern) beim Durchblättern ein Gefühl zu bekommen, was für Strukturen überhaupt / vielleicht häufiger in den 64k Einträgen vorhanden sind. Hier, für das Wörterbuch wäre es aber vorteilhaft, im .pdf zumindest eine suchbare Textebene zu haben (schon in Arbeit).

Weitere schon erkannte Baustellen (Auswahl): Vom Format sind die Unterschriften noch zu klein. Die Schwierigkeiten bei AStA (800x431 pixels) gegenüber den anderen Abbildungen (800x566 pixels) möglicherweise nur eine Frage der Dimension der skalierten .png. Trotz grosser Symbolisierungen (etwa, «du solltest») glaube ich könnte eine A4-Seite durchaus eine oder auch zwei weitere Zeilen zusätzlich (sieben statt fünf) aufnehmen. Die Beispiele hier greifen hier noch die Stenogramme mit den alten Hilfslinien (grau, teilweise gestrichelt) zurück; später kommen dann die «richtigen» zum Einsatz.

Beim Beispiel mit Hose bin ich mir unsicher, ob ich es recht verstehe: Geht es letzlich darum, die Stenogramme vor den Hilfslinien in der Horizontale zu zentrieren? Pythonik (talk) 16:19, 13 March 2021 (UTC)

14.3.[edit]

@Thirunavukkarasye-Raveendran Beispiel. Weil einige der Einträgen länger sind (etwa «Allgemeiner Studierendenausschuss») ist das Layout zunächst dreispaltig. Aber immerhin sind die Stenogramme lesbar (als Vektor / .pdf auch skalierbar ohne Pixel) und haben ihre aus dem Dateinamen automatisch entnommene langschriftliche Bildunterschrift. Pythonik (talk) 14:14, 14 March 2021 (UTC)

@Pythonik

Toll! Genial! Ich bin baff. Ob 4 oder 3 Spalten ist mir eigentlich egal. Die Größe der Stenogramm ist schön, die Auflösung auch, die Textgröße auch. Damit könntest du also ein komplettes PDF-Wörterbuch erzeugen?
Vielleicht die Bildunterschrift dichter an das jeweilige Bild ranschieben, das spart Platz und bei der jetzigen Aufteilung ist der Abstand vom oberen und unteren Bild identisch, so dass dem Unkundigen bei flüchtiger Betrachtung nicht klar ist, ob es eine Bildüberschrift oder Bildunterschrift ist.
Die Fußzeile würde ich gerne weglassen und stattdessen eine Kopfzeile: in der Mitte die Seitennummer, links das erste Wort der Seite, rechts das letzte Wort der Seite. Wenn das noch mit deinem Programm geht, würde es mit Arbeit sparen.
Das Abbildungsverzeichnis ist auch noch mal toll. Da kann man richtig gut drin suchen. Es solle aber "Wörterverzeichnis" heißen. Die Seitenzahlen kann ich dann mit etwas Arbeit (falls dein Programm das nicht auch noch hinbekommt) im PDF auf die jeweilige Seite verlinken, allerdings nur auf den entsprechenden Seitenkopf (auch deshalb die Seitenzahl in der Kopfzeile jeder Seite.
Ich sehe auf meinem Tablet-PC, dass man ein 1000 Seiten PDF ohne intelligent verknüpfte interne Links praktisch nicht benutzen kann. Das dauert allein 5 Minuten, um 100 Seiten runterzuscrollen
Die erste Seite wird ein Alphabetisches Verzeichnis.
A - B - C - D
danach für jeden Buchstaben eine eigene Seite (1-2 Seiten je Buchstabe) für die "Feinnavigation":
Beispiel:
Seite 21: E - Echolot
Seite 22: echt - Egel
Seite 23: Egge - ehrenhaft
Seite 24: ehrenhafte Männer - Eiersalat
Seite 25: Eifel - Eigner
Seite 26: eignet - einatmen
Seite 27: einäugig - einfachem
Seite 28: einfachen - eingeordnet
Seite 29: eingepackt - Einheitssystem
Seite 30: einheitlich - einmalig
Seite 31: einmalige - Einschreiben
Seite 32: Einsegnung - einwärts
Seite 33: einweisen - Eisenbahn v2
Seite 34: Eisenbahn - ekelt
Seite 35: EKG - elementar v2
Seite 36: elementar empfangen
Seite 37: Empfänger - Emulsion
Seite 38: Emus - engen
Seite 39: enger - entfacht
Seite 30: entfernen - entlausen
Seite 31: entledigen - entweder
Seite 32: entwerfen - Epithelien
Seite 33: Epizentrum - er
Seite 34: er's - erdrücken v2
Seite 35: erdrücken - Ergebnis
Seite 36: Ergebnisse - Eritrea
Seite 37: erjagen - erkundigen
Seite 38: erkundigt - Erlösung
Seite 39: ermächtigen - Erntebräuche
Seite 40: Erntefest - ersah
Seite 41: Ersatz - erstaunlichen
Seite 42: erstaunlicherweise - erwarte
Seite 43: erwarten - es ist vorbei
Seite 44: es regnete - etc.
Seite 45: Ether - Europameisterschaft
Seite 46: Europas - Exodus
Seite 47: exogen - exportieren
Seite 48: exportiert - Extremsituation


Das ist dann jeweils das erste Wort (mit Link die entsprechende Zeile) und das letzte Wort (OHNE Link) der Seite, so wie sie auch im jeweiligen Zeilenkopf stehen.
Wenn das nicht mit dem Programm geht, dann kann ich das auch per Hand machen.

Beispiele: Hose[edit]

Das Beispiel "Hose" betrifft alle NICHT das Wörterbuch. Ich spinne einfach weiter, was nach einem Wörterbuch vielleicht möglich wäre. Einen kürzeren oder längeren Text in Steno, ob nun das Grundgesetz, Krieg und Frieden, 1984 (Copyright läuft gerade aus), Gothes Liebesbriefe, Sprichwörter, Wikipedia-Artikel oder was auch immer. Das müsste doch auch mit einem Programm möglich sein. Dazu meine laienhaften Gedanken, was dazu für Probleme zu überwinden wären, da dann die einzelnen Wörter direkt aus dem SVG kopiert werden müssen und genauer platziert werden müssten. Und wenn so ein Programm nur als Unterstützung für eine zügige Endkorrektur per Hand eingesetzt wird. Das Programm müsste also in eine SVG-Seite die einzelnen Wörter reinkopieren.

Zur Platzierung ist mir noch eingefallen, dass man die Lage der korrigierten farbigen Platzierungslinien auch einmalig in eine Tabelle auslesen könnte, auf die dann beim späteren Platzieren zugegriffen wird. Aber jetzt ist mir ein neues Problem aufgefallen: ich habe bisher noch keinen Verschiebungsbefehl im SVG-Code gefunden, mit dem man ein gruppiertes Wort an seinen Platz verschieben kann (ich hab noch nicht gründlich gesucht). Denn sonst müsste man alle 10-50 Punkte des jeweiligen Wort einzeln auf die Koordinaten zur Platzierung auf der fertigen SVG-Seite umrechnen.

Am Anfang würde mir schon ein automatischer Textvergleich helfen: Ich gebe dir einen Text und du sagst mir, welche Wörter dazu noch in der SVG-Sammlung fehlen, damit ich diese erst mal produzieren kann. Thirunavukkarasye-Raveendran (talk) 22:02, 14 March 2021 (UTC)

@Thirunavukkarasye-Raveendran Gut (von wegen Richtung). In der Anzeige bei GitHub so nicht sichtbar, aber das .pdf (oben rechts ist ein Schalter «Download») enthält klickbare Querverweise aus den Einträgen «Abbildungsverzeichnis» heraus zur entsprechenden Seite, die mein .pdf Leseprogram versteht und noch als rote Kästchen hervorhebt. Auch deshalb hatte ich noch nicht an ein Verzeichnis mit seitenweisen Angaben á la «Seite 3: Aix-Anton, Seite 4: Arles-Avignon», etc. gedacht. Die Sortierung von etwa «die Ode» unter «O» statt momentan «D» ist momentan nicht möglich, denn der Algorithmus schaut sich die Dateinamen nach dem letzten «_-_» an und ordnet danach die Dateien, absichtlich ohne Unterschied von grossen oder kleinen Buchstaben.

Später kann ich LaTeX noch dazu bringen, dieses Verzeichnis anders zu benennen; denn momentan ist eine der noch bearbeiteten Fragen die Handhabe von Einträgen mit Klammern (etwa, bei den Abbildungen zu Abkürzungen «EU (Europäische Union)». Der (vergleichsweise) grosse Abstand zwischen Einzelbild und Bildunterschrift kommt daher, dass ich die ursprünglichen .svg als ganze Tafel in ein .pdf umwandle. Bei vielen bringt das momentan zu viel Platz mit, bietet aber den Vorteil alle Stenogramme «vertikal komplett» abzubilden (also auch solche wie «du kanntest» jenseits von Ober- / Untergrenze). Wenn ich also erst das Namenproblem gelöst habe, sollte ich nach den «wirklichen Dimensionen» der .svg schauen, also: auf welcher Tafel reicht das Stenogramm am weitesten nach oben / nach unten und nach diesen Dimensionen sodann alle .svg / .pdf abschneiden. Pythonik (talk) 05:49, 15 March 2021 (UTC)


@Pythonik
Das wird ja immer besser, die Links. Ich hatte die Datei nicht extra runtergeladen sondern direkt in Github angeschaut. Ich hatte keine Links erwartet. Die Links solltest du alle blau einfärben.
Die Unterscheidung und alphabetische Sortierung von "die Ode" und "Ode" ist ganz einfach. Du wirfst per Hand alle SVGs raus, die NICHT mit DEK beginnen, so bleiben nur Einträge mit einem einzigen Wort und ohne nachfolge Klammer übrig. Nur die sollen in den Hauptteil des Wörterbuches.
Alles was mit "A_DEK_ ..." beginnt sind Abkürzungen.
"B _DEK_..." sind zwei Worte im Stenogramm und Dateinamen
"C_DEK_..." sind 3 Worte
E - englische Wörter
F - falsche Schreibweise (rot durchgestrichen): File:F DEK Deutsche Einheitskurzschrift - Badeanzug v2
G - Geographie: File:G DEK Deutsche Einheitskurzschrift - Leipzig (Elbe, Harz, Niederlande) (Straßen, Städte, Flüsse, Regionen, Länder, Kontinente, Gebirge, Seen, Meere, Inseln, Buchten...)
K - offizielles Kürzel der DEK Verkehrsschrift: File:K DEK Deutsche Einheitskurzschrift - über (Kürzelm aber auch Einzelbuchstaben und besondere Buchstabenverbindungen aus der Systemurkunde)
N - für nicht empfohlene Schreibweise (in eckigen Klammern): File:N DEK Deutsche Einheitskurzschrift -
O - Organisation (und Firmen, Marken): File:O DEK Deutsche Einheitskurzschrift - UNO (Deutsche Bank, ...)
P - Persone: File:P DEK Deutsche Einheitskurzschrift - Leonhard Euler (Vornamen, Familiennamen)
L - Latein
S - sonstige - mit Klammern - Setzkasten, Ziffern, leere Datei mit Linien, mit Erläuterungen in Klammern im Dateinamen: File:O DEK Deutsche Einheitskurzschrift - wieviel (alte Rechtschreibung) ; meinen (von Meinung) ; Streitende (Großschreibung) ; A (Großbuchstabe)
U - Datei mit Unterscheidungszeichen (einschließlich Verbindungsstrich, Längen, Großbuchstaben, Apostroph u. ä.): File:U DEK Deutsche Einheitskurzschrift - Bett v2.svg
V - Vergleich - Dateien mit Vergleichen (ABER): File:V DEK Deutsche Einheitskurzschrift - Bohne ABER Beine
X - Buchstabenlisten, Kürzellisten: File:X DEK Deutsche Einheitskurzschrift - br cr gr tr kr rr
Y - konjugierte Verblisten: File:Y DEK Deutsche Einheitskurzschrift - ich sollte du solltest er sollte
Z - Sätze, Redewendungen, Sprichwörter, etwas längerer Text


Das sortiert du dir in 10-15 verschiedene Ordner und liest nur den einen Ordner aus. Das habe ich mal eine Woche lang ganz penibel umbenannt.
Die anderen Abschnitte würd ich als 6 Anhänge machen (Abkürzungen, Personennamen, geografische Bezeichnungen, Unterscheidungszeichen, Vergleiche mit ABER, Falschschreibung) - das stört nur im Wörterbuchteil. Das sortiert sich dann innerhalb der Abschnitte sauber selber. Wenn ich mit der Durchsicht in 1 Jahr durch bin, dann stelle ich noch die Wiener Urkunde zusammen, die Beispiele sind alle drin in meiner Sammlung. Die Wiener Urkunde wird dann auch noch ein Anhang.
Die Dateien mit "B_DEK_..." und "C_DEK-..." würde ich ganz weglassen, auch L, S, X, Y und Z-Dateien. Das ist eher was für Lehrzwecke. Die Wörter tauchen alle auch im Hauptteil noch mal als Datei auf.
Ich leg dir mal eine ganz aktuelle Dateiversion in meiner Dropbox ab, gleich in verschiedene Ordner sortiert: meine Dropbox oder auf google-drive.
Zur Bildbreite schlage ich vor, dass du es mit 4 Bilder je Zeile erstellst, dann schaue ich alles durch, was zu breit ist und markiere diese Bilder (schätzungsweise 500 Bilder) Entweder durch einen Anhang am Dateinamen oder in einer separaten Wortliste. Im nächsten Durchlauf müsste das Programm dann für diese Bilder in den entsprechenden Zeilen auf 3 Bilder je Zeile umspringen.
Ja, bei einigen sehr wenigen Bildern sind die Linien in der Höhe verschoben. Die könnte ich ja bei der manuellen Durchsicht auch mit in eine separate Liste aufnehmen. Wie die dann zu behandeln sind weiß ich noch nicht.

Thirunavukkarasye-Raveendran (talk) 21:32, 15 March 2021 (UTC)

17.3.[edit]

Mit alten Stenogrammen (teilweise graue Lineatur) habe ich weiter an den Skripten gearbeitet, und hier ein Beispiel abgelegt. Bei gegenwärtig 18 Stenogrammen je A4-Blatt habe ich für 521 Stenogramme inklusive suchbarem Verzeichnis (bereits in Details angepasst) 33 Seiten gebraucht; das .pdf zu etwa 1.3 MByte. Es ist nicht als Korrekturvorlage gedacht.

Im Herbst hatte ich für einen Anki-Lernstapel etwa 26k Einträge von Wikimedia commons berücksichtigt, was -- bei vollständiger Ueberführung in ein .pdf -- etwa einen Faktor von 50 bedeuten würde. Heute, ein paar Monate später, hat es vermutlich schon deutlich mehr als 30k Tafeln.

Denkbar aber, gegenwärtig braucht es (noch) gar kein .pdf, dass en bloc alle Stenogramme beinhaltet. Mit dem neuen Archiv (Schrp DEK SVG 2021-03-05) und Deiner Sortierung werde ich vielmehr die einzelnen Stenogrammfamilien für sich durchlaufen lassen, und als Gruppe_A.pdf, Gruppe_B.pdf, etc. gekennzeichnet peu-á-peu separat zur Durchsicht ablegen. Um die Korrektur zu erleichtern wird die Lineatur komplett (nicht nur die Grundlinie) enthalten sein, alles schwarz. Auf einen Austausch «nur Grundlinie» werde ich noch verzichten. Einen Querverweis von hier nach dort lege ich dann hier ab.

Während im Hintergrund die Skripte arbeiten werden würden mich die von Dir angesprochenen Dutzend Seiten zur Computer-Graphik interessieren, vielleicht wird dort ein für die Stenogramme nutzbarer Ansatz beschrieben; aber es hat keine Eile damit. Pythonik (talk) 20:54, 17 March 2021 (UTC)

Sehr, sehr schön das PDF. Jetzt habe ich mir mal Anki auf mein Tablet geladen und Steno geladen. Tippfehler im "Vorwort": Alfabeth. Die Bilder dort sind ja momentan noch sehr pixelig. Dabei kommt mir was wichtiges in den Kopf: Wir sollten die PDFs auch auf Lesbarkeit auf dem Handy überprüfen, da die "Jugend" manchmal nur noch ausschließlich damit "arbeitet". Bisher war mir nur die zusätzliche Lesbarkeit auf dem Tablett wichtig. Die paar Seiten aus dem Buch werden ich fotografieren, in den nächsten Tagen ist aber keine Sonne angesagt - aber dann. Thirunavukkarasye-Raveendran (talk) 18:21, 19 March 2021 (UTC)

@Thirunavukkarasye-Raveendran Vor wenigen Minuten habe hier das .pdf zum Hauptteil abgelegt. Mit 1838 Seiten ist es ein etwas grösseres Dokument (37 MB). Nur ein paar Stenogramme habe ich darin aufgesucht, um festzustellen, ob die Links aus dem Verzeichnis zu den Stenogrammen funktionieren; je nach Anzeigeprogram gelangt der Leser mindestens auf die entsprechende Seite. Wie im Umfeld von «übergewichtig» (S. 1639) zu sehen, treten im Detail noch Probleme bei der Sortierung der Stenogramme auf. Um einen Überblick zu erhalten, was vielleicht im einzelnen Stenogram verschoben / ausgetauscht werden sollte, sollte das aber nicht ein Hindernis sein.

Re Anki: Mit Blick von heute würde ich es verändern. Die Idee, die (im Herbst geladenen) Stenogramme automatisch zu verschlagworten, um gezielt nach konsonantischen Gruppen / Kürzeln zu trainieren hat in der Umsetzung zu oft zu beta-Fehlern geführt; in der langschriftlichen Form wurden Muster erkannt, die im Stenogram anders als von einer Schablone angenommen symbolisiert werden. Wie ich heute weiss, reicht es eben nicht, nur die Buchstabenfolge in der langschriftlichen Form mit einer solchen Schablone zu vergleichen. Die Kombination mit der Suche nach Silben im Wort kann das Problem dieser falsch-positiven Treffer mindern, ist aber nur ein paar Mal umgesetzt worden. Pythonik (talk) 09:45, 20 March 2021 (UTC)


Schaue ich mir gleich an. Die Buchseiten sind jetzt online - in meiner Dropbox. Wenn du weitere Seite möchtest - kein Problem. Halte ich aber alles für zu umständlich, da ich für die Strichverstärkungen mehrere Linien überlagert habe. Diese habe oft wie die Hauptlinie die Linienstärke 6. Da die Hauptlinie aber nie mit einer Verstärkung anfängt, könnte dieser Punkt zu Platzierung des Stenogramms in längeren Texten helfen. Wahrscheinlich bräuchte es Fallunterscheidungen für einige Anfangsbuchstaben, da z.B. "sch" weiter nach links reicht, als der erste Linienpunkt. Wenn man die Wörter aber mit etwas Sicherheitsabstand setzt, spielt das keine Rolle. Thirunavukkarasye-Raveendran (talk) 10:18, 20 March 2021 (UTC)
Einfach nur Wahnsinn dein pdf. Ich bin richtig ergriffen. Das ist vom Hand alleine fast nicht zu schaffen. Wenn man bedenkt, dass Winklers Wörterbuch das ganze noch logisch gruppiert hat. Aber so online durchsuchbares pdf und total alfabetisch geordnet hat auch große Vorteile. Eigentlich ist es fertig.
Natürlich hätte ich noch 100 Verbesserungsvorschläge.
1. Die Bildunterschriften müssen um sehr viel höher. Die wenigen Bilder, wo das kollidiert sage ich dir an. Selbst wenn man eine gelegentlich Kollision bestehen lässt macht es nichts.
2. Vor das Wortverzeichnis kommen noch 10-30 Seiten alphabetisches Suchverzeichnis, so wie ich weiter oben als Beispiel beschreiben hatte. Wäre schön, wenn die Seitennummerierung von der 1. Seite an durchgehend durchlaufen könnte (nicht wie bei den Amerikanern im Vorspann mit römischen Zahlen). Du solltest am besten die Seitennummerierung als Konstante programmieren mit plus x (noch unbekannte Anzahl der ersten Seiten). Das schlägt ja dann auch auf die Seitenangaben im alphabetischen Wörterverzeichnis am Ende durch. Oder wenn das zu arbeitsreich wird, müssten die 10-30 Vorspannseiten schnell fertig gemacht werden.
3. Alle Seitenzahlen sollten ein Link auf die erste Seite des Vorspanns sein, um bequem wieder zurückblättern zu können, noch besser ein Sprung auf den jeweiligen Buchstaben im Vorspann.
4. Jede Seite sollte zwei Fußzeilen haben, 1. Zeile A - B - ... - Z mit Link zur jeweiligen ersten Seite mit diesem Buchstaben im Bildteil; 2. Zeile A - B - ... - Z mit Link zur jeweiligen ersten Seite im Wörterverzeichnis. Erst das schnelle und leichte hin- und her springen macht ein Wörterbuch online handlich. Ich finge meine Verlinkung im Steno-Wörterbuch auf Wikibooks gut - Wikibooks Steno. Die Verlinkungen können gar nicht zu viel sein.
4a. Vielleicht sollten die Buchstabenlinks am linken Bildrand (statt 2. Zeile) angeordnet werden, wo wie in Telefonbüchern das Register.
5. Im Bildteil sollte (vorerst) vor jedem neuen Buchstaben eine Seite leer gelassen werden. Da muss der Angangsbuchstabe ganz groß stehen (3 Bilder hoch?). So hat man eine gewisse Chance beim schnellen runterscrollen den Beginn eines neuen Buchstabens zu erkennen. Auf diese leere Seite kommt dann noch mal eine Feinnavigation für diesen Anfangsbuchstaben. Entweder das erste Wort jeder Seite (oder wenn der Platz nicht reicht - jeder zweiten Seite). Eventuell auch nur ein alphabetisches Verzeichnis mit den jeweils ersten 3 oder 4 Buchstaben. Die Verlinkungen können gar nicht zu viel sein. 1500 Seiten lassen sich leider nicht feinmotorisch durchscrollen. Der normale langsame Lauf in der Scrollleiste dauert für vielleicht 100 Seiten, die mit "E" anfangen zu langsam. Und für das schnelle Scrollen ist man bei 1800 Seiten nicht genau genug.
6. Im Wörterverzeichnis sollte vor jeden Buchstaben auch eine Seite mit Links - z.B. die ersten 3-4 Buchstaben - eingefügt werden.
7. Der Rücksprung vom Wörterverzeichnis auf das Bild: Damit das Bild weiter in der Bildschirmmitte landet, sollte der Rücksprung auf 6 Wörter davor landen, das dann am oberen Bildrand steht. Wahrscheinlich gibt es im PDF keine Möglichkeit das Wort, auf das gesprungen wird mit einer Hervorhebung zu versehen.
8. Ich denke die Bilder können zu jeweils 4 in einer Zeile angeordnet werden. Die Kollisionen, die sich dabei ganz selten ergeben, können vernachlässigt werden.
9. Ich hätte gerne zur Durchsicht mal eine Version mit 5 Bildern in einer Zeile, so erkennt man schnellsten, welche Bilder sehr breit sind.
10. Ich denke fast, dass man später einen Stenotext erzeugen kann, indem man zur Platzierung die Linien aneinanderstößt, dann stimmt der Abstand der Stenogramme meist schon und die Höhenausrichtung sowieso. Die Wörter wo es nicht stimmt, müssen dann per Hand ein breiteres SVG bekommen, so dass das Stenozeichen nicht bis an den Bildrand reicht. Mein Traum und Endziel ist ein längerer halbautomatischer Stenotext.
11. Für komplizierte Fälle wäre es schön, wenn man die Seite direkt per Hand umstellen könnte (bzw. die Wortreichenfolge irgendwie steuern könnte). Beispiel. Die Sortierung von Wiederholungsübungen (Version 1-3) und Wiederholungsübung (Version 1-3) ist unglücklich ineinander verschachtelt und sollte wenn möglich korrigiert werden. Ebenso wenn gelegentlich ein sehr breites Wort auftritt, könnte man ein anderes (unwichtiges Wort - z.B. zusätzliche Dativendung) Wort auf dieser Seite löschen und nur die Zeile mit dem langen Wort um ein Bild kürzer machen. Das erfordert dann aber eine Verschiebung in mehreren Zeilen. ABER ohne, dass diese Verschiebung auf die nächste Seite überspringt.
12. Es dauert schon ewig die Wörter durchzusehen: Ich bin von hinten bis W gekommen.
Besonders breite Wörter: Zeugenschutzprogramm, Xenotransplantat, Xenotransplantation, Wirtschaftswissenschaften, Wirtschaftswissenschaft, Wirtschaftsministerium, Wirkungslosigkeit, Wiederholungsübung, Wiederholungsübungen, vollzeitbeschäftigt, Vollzeitbeschäftigung, Vollkornbrot.
13. Ich finde jeden Tag je einen Fehler bei der Überarbeitung. Also könnten noch 300-500 Fehler drin sein. Da ich jetzt bei den neueren Stenogrammen bin, sollten die Fehler abnehmen, da meine Theoriekenntnisse immer besser wurden.
Ich hoffe auf deine weitere Unterstützung. Deine PDFs freuen mich richtig. Bitte um kurze Nachricht, wenn du die Buchseiten hast, damit ich sie dort wieder löschen kann. Thirunavukkarasye-Raveendran (talk) 11:30, 20 March 2021 (UTC)

@Thirunavukkarasye-Raveendran Das Problem mit dem Sortieren-an-sich konnte ich teilweise lösen (korrigiertes .pdf an gleicher Stelle von GitHub unter gleichem Namen). Betroffen waren auch alle Stenogramme mit mehr als einer Variante, im .pdf von heute Vormittag nicht nur um «übergewichtig» zu erkennen, sondern auch bei Stenogrammen mit «v2»/«v3» im Namen. Jetzt sind die Einträge von A-Z sortiert, gefolgt von Ä, dann Ö, und letzlich Ü. Das zwar noch nicht wie im deutschsprachigen Telefonbuch und hat unschöne Sprünge wie «Zytologie» vor «zäh», aber noch habe ich keinen Weg aufgefunden, um Python nicht-englisch sortieren zu lassen. Pythonik (talk) 17:23, 20 March 2021 (UTC)

20.3.[edit]

google: python alphanumeric sorting german letters
ergibt: [1]
[2] - Was das genau bedeutet weiß ich nicht, ich kann nur minimal Java.
Wenn nicht lösbar, dann ist das mit dem Umlauten nicht sooo schlimm.
Ich kenne natürlich nicht dein ganzes Programmkonzept. Mir kommt in den Kopf, wenn du ein nummerierte Liste hast (in der die Wörter in richtiger alphabetischer Reihenfolge stehen mit einer durchlaufenden Nummerierung davor), dann könnte Python an Hand dieser Liste die Sortierung vornehmen. Riesiger Vorteil einer solchen Liste (kann ich ganz einfach in LibreCalc erstellen) wäre, dass man dort von Hand die Reihenfolge einzelner Wörter ändern könnte - z.B. die je drei Versionen von Wiederholungsübung und Wiederholungsübungen, die unschön ineinandergeschachtelt sind. In so einer Liste könnte auch stehen, dass die nächsten beiden Wörter nur zu zweit in einer Zeile stehen sollen, weil sie sehr breit sind. Ob das mit so einer Liste Sinn macht weiß ich nicht. Aber wenn in einer weiteren Version das Wörterbuch mal nach Wortstämmen gruppiert wird, so wie Winklers Stenowörterbuch (und auch das alte DDR-Steno-Wörterbuch), dann wäre so eine Liste zur Sortierung per Hand am besten geeignet.
Ja, die richtige Sortierung der Versionen ist jetzt super, sogar Version4 ist berücksichtigt.
180 Seiten Wörterverzeichnis. Wahnsinn.
Mein Browser verschluckt sich fast an dem PDF, er hängt etwas, wenn ich von ganz oben ganz nach unten will. Die Bilder sollten unbedingt auf 4 oder 5 zusammengerückt werden, um die Seitenzahl etwas zu reduzieren. Die ganzen Anhänge sollten wohl ein separates PDF werden: Personennamen, Geografie, Wiener Urkunde, Beispielsätze.

Thirunavukkarasye-Raveendran (talk) 18:53, 20 March 2021 (UTC)

@Thirunavukkarasye-Raveendran So, die 5-spaltige Version ist hier. Drei der ursprünglichen .svg sind dabei verloren gegangen; die sind aber auf einer externen Festplatte noch im Archiv zum Neubau morgen.

Sortierung bei Python mit Umlauten hatte ich so noch nicht gebraucht, aber man lernt nie aus. Und nicht zuletzt auch: bei der Anwendung.
Dein Link zu Dropbox führt auf das mir schon bekannte .rar Archiv mit den Stenogrammen. Mehr sehe ich dort noch nicht. Vielleicht sind die Buchseiten in einem separat angelegten Verzeichnis mit anderer Anschrift?
Vielleicht lässt sich noch etwas Speicherbedarf einsparen. Bei .pdf dieser Kategorie nehme ich eher weniger ressourcenhungrige Programma (Sumatra, qpdfview, oder zathura). Pythonik (talk) 19:31, 20 March 2021 (UTC)
Hier ist der Links zum .rar der Buchseiten: [3]. Die Zahl zum Öffnen des Archivs hast du ja. Thirunavukkarasye-Raveendran (talk) 09:19, 21 March 2021 (UTC)
1. Ich habe jetzt das PDF mit den 5 Bildern je Zeile. Das ist mein Favorit. Ich glaube da ist durchgängig ein Fehler drin: Warum sind es nicht wesentlich weniger Seiten? Weil alle Bilder doppelt dargestellt werden. Im Wörterverzeichnis sieht man schnell, dass sich das Wort beim übe nächsten Wort wiederholt.
  • :Quindar
QR-Code
Quindar
QR-Code
  • ebenso
Quader
Quadrant
Quader
Quadrant
Pupillen
Puppen
Und bei den Bildern ist das dann eine identische Doppelung. Thirunavukkarasye-Raveendran (talk) 09:28, 21 March 2021 (UTC)
2. Das Wörterverzeichnis würde ich nun doch anders machen: ganz "hässlich" als Fließtext, ohne Seitenzahlen. Die einzelnen Wörter (blau mit Link) nur durch Komma getrennt. Als einfacher Fließtext. Bei jedem neuen Anfangsbuchstaben diesen ein mal groß vor den neuen Abschnitt setzen. Eventuell neue Anfangsbuchstaben auf einer neuen Seite beginnen. So reduziert sich die Seitenzahl des Wörtverzeichnisses etwas.
3. Begründung: PDF kommt vom Papier her. Dort sieht das bisherige Wörterverzeichnis super aus. Auf Papier kann man eine Seite auf einen Blick erfassen. Wenn aber nicht die gesamte Seite auf dem Monitor dargestellt wird (Tablet-PC, Handy, ich vergrößere mir auch am PC ein PDF auf volle Breite und sehe nicht die ganze Seite), dann müsste man für eine Seite 3x runterscrollen und 2x hochscrollen. Da wäre dann eine horizontale Sortierung hilfreicher, aber ungewohnt. Niemand wird sich 1500 Seiten ausdrucken. Am PC will der Benutzer nur schnell zum eigentlichen Bild gelangen. Dafür reicht es das Wort im Fließtext zu finden und draufklicken zu können. Die Seitenzahlen interessieren den Nutzer in diesem Moment auch nicht. Das interessiert nur Papierausdrucker. Thirunavukkarasye-Raveendran (talk) 09:46, 21 March 2021 (UTC)
4. Schön wäre, wenn alle Bildunterschriften verlinkt sind, so, dass man wieder auf das Wort (oder zumindestens auf die Seite) im Wörterverzeichnis zurückspringen kann. Das ist für Benutzer interessant, die das PDF durchstöbern möchten. Thirunavukkarasye-Raveendran (talk) 10:05, 21 March 2021 (UTC)
5. Die geografischen Bezeichnungen sollten mit in den Hauptteil (File:G DEK...). An besten diese Dateien umbenennen ("G" löschen). Auf Commons lasse ich diese Dateinamen aber unverändert. Vermutlich gibt es dort aber Dateinamen mit mehreren Wörtern und Leerzeichen. Ebenso sollten Bilder mit Unterscheidungszeichen (File:U DEK...) mit in den Hauptteil. Thirunavukkarasye-Raveendran (talk) 10:13, 21 March 2021 (UTC)
6. Bei "Arbeitslosenunterstützung", "Belegschaftsversammlung", "Bibliothekskatalog", Bildschirmdiagonale, Datenverarbeitungsanlage, Dienstleistungsunternehmen, Dominikanerorden, Durchschnittsbelastung, Durchschnittstemperatur, Eigenheimfinanzierung, Enzyklopädie, Forderungskatalog, Fremdsprachenunterricht, Funktionstüchtigkeit, Gebühreneinzugszentrale, Gemeinnützigkeit, Gemeinschaftsproduktion, Gemeinschaftsverpflegung, Genossenschaftsgedanke, Großkreisnavigation, Harnstofffreisetzung, Hochseekreuzfahrt, Hubschrauberlandeplatz, Höchstgeschwindigkeit, Hühnereiweißallergie, Hühnereiweißallergie v2, Informationstheorie, Intelligenzquotient, Interessengemeinschaft, Katzenkratzkrankheit, Komödiantentum, Kondensatorkapazität, Konformität, Kreditausfallversicherung, Körbchengröße, Körbchengröße v2, Lebensabschnittspartner, Lebensmittelproduktion, Lebensmittelzusatzstoff, Lebensmittelzusatzstoff v2, Lebensmittelzusatzstoffe, Lebensmittelzusatzstoffe v2, Leuchtspurmunition, Leuchtstoffröhre, Leuchtturmwärter, Lösegeldforderung, Lösegeldforderung v2, Meinungskorridor, Meinungskorridor v2, Mikrokosmos, Monopolmarkt, Nachrichtenübermittlung, Nationalbibliothek, Nationalbibliothek v2, Nervenzusammenbruch, Neuankömmling, Neuankömmlinge, Notarzteinsatzfahrzeug, Notfallsanitäter, Notfallsituation, Notstromgenerator, Notstromgenerator v2, Oberflächenstruktur, Oberförster, Ordnungswidrigkeit, Paläoantropologe, Paläoantropologie, Paläokliomatologie, Personenkraftwagen, Personentransport, Persönlichkeitsstörung, pornografische, pornografischem, pornografischen, pornografischer, pornografisches, Portoersprarnis, Possessivpronomen, Produktionssteiegerung, Proportionalität, Radiusköpfchenbruch, Saatgutverkehrsgesetz, Schokoladenkeks, Schokoladenkekse, Schokoladenmädchen, Schokoladenpudding, Schonungslosigkeit, Schreibtischgarnitur, Schreibtischgarnitur v2, Schreibtischgarnitur v3, Sehenswürdigkeiten, Sitzungsprotokoll, Sondervergünstigungen, Sonderverwaltungszone, Sorgerechtsstreit, Sorgerechtsstreit v2, Sozialdemokrat, Sozialdemokraten, Sozialdemokratie, sozialdemokratisch, sozialdemokratische, Spurhalteassistent, Staatsangehörigkeitsausweis, Staatsangehörigkeitsgesetz, Stehkragenproletariat, Steinbogenbrücke, Stickstofffreisetzung, Stickstofffreisetzung v2, Straßenverkehrsordnung, Studierendenausschuss, Universitätsbibliothek, Universitätsbibliothek v2, Universitätsbibliothek v3, Unterhaltungselektronik, Unterhaltungsprogramm, Unvoreingenommenheit, Vergnügungssteuer, Vergnügungssteuer v2, Vergnügungssteuer v3, vergnügungssteuerpflichtig, Verwandtschaftsbeziehung, Verwandtschaftsbeziehung v2, Verwandtschaftsbeziehung, Verwandtschaftsbeziehung v2, Verwandtschaftsverhältnis, Verwandtschaftsverhältnis v2, Verwandtschaftsverhältnis v3, Verwechslungskomödie, vollzeitbeschäftigt, vollzeitbeschäftigt v2, Vollzeitbeschäftigung, Vollzeitbeschäftigung v2, vorbeibringen, vorbeibringt, vorbeigreifen, vorbeigreifen v2, Weißwurstsenf, Weißwurstäquator, Wettbewerbsvorteile, Wiederholungsübungen, Wiederholungsübungen v2, Wiederholungsübungen v3, Zeugenschutzprogramm, Zeugenschutzprogramm v2, Zeugenvernehmung,
Nicht gut ist die extreme Überlänge von: Paläoantropologe, Paläoantropologie, Paläokliomatologie. Die einfachste Lösung wäre diese Wörter einfach aus dem Ordner zu löschen.
ist die Bildunterschrift zu breit. Entweder einfach so lassen und ignorieren oder einen Bindestrich im Wort einfügen (wenn das geht). Die 5 Bilder je Zeile würde ich deshalb nicht aufgeben. Die paar Stellen kann ich per Hand ganz einfach korrigieren: wegradieren und dann einen neuen Text einfügen. Welche Schrift und Schriftgröße ist das momentan??? Bei "Arbeitsstättenverordnung" ist das Bild breit aber noch OK. Da kann ich ganz einfach per Hand etwas von den Linien löschen. Auch Bilder kann ich in die Zwischenablage kopieren, löschen und leicht versetzt wieder einfügen. ABER die Auflösung ist dann leicht reduziert, geht für einzelne Bilder aber nicht für mehrere Reihen gut. Aber wenn mal ein sehr breites Bild dabei ist könnt ich ein Nachbarbild verschieben oder wenn es Version3 ist einfach löschen. Thirunavukkarasye-Raveendran (talk) 11:20, 21 March 2021 (UTC)
7. Vielleicht solltest du dich erst mal nur auf den Anfangsbuchstaben A konzentrieren und davon ein separates PDF machen. Die 24 einzelnen Buchstaben-PDFs lassen sich dann per Hand zusammenfügen, statt die Starseite für jeden Buchstaben auch noch zu programmieren. Thirunavukkarasye-Raveendran (talk) 11:55, 21 March 2021 (UTC)
8. Bei "geduldet" und "geduldetes" steht statt einem Bild nur ein Kästchen. Thirunavukkarasye-Raveendran (talk) 12:15, 21 March 2021 (UTC)
9. "Klosterbibliothek v2", "Legitimität", "Muskelzuckungen" steigen sehr hoch bzw. tief. Könnte beim engeren Zusammenrücken der Bilder zum begrenzenden Faktor werden.
sehr hoch: schlüssig, schmecktest, spezialisiert, Spezialisten, talentiert, vereitelt, ältester, ältestes,
riskierten, riskierstest, riskierstest v2 - die Schrift steigt so hoch, dass es sogar die Bilder verschoben hat.


Thirunavukkarasye-Raveendran (talk) 12:40, 21 March 2021 (UTC)

@Thirunavukkarasye-Raveendran Das Problem mit der teilweisen Doppelung von Einträgen hatte ich spät am Abend bemerkt. Gemeinsam mit einem verbesserten Sortierschema (nun etwa der Eintrag «Wunsch» direkt vor «Wünsche») und einer nochmals etwa ein Drittel Dateivolumen sparenden Nachbehandlung sind die Änderungen seit Mittag in der jetzigen Version von generator_Hauptteil_5spaltig.pdf berücksichtigt.

Von Grund auf neu von den .svg aufgebaut, sind auch die drei problematischen Einträge («geduldet», etc.) berücksichtigt. Der Algorithmus hatte deshalb sie nicht einbinden können, weil ihr Dateiname zwei (statt sonst einem) Leerzeichen vor dem Part hat, der die langschriftliche Form trägt. (Bislang sind die drei die einzig identifizierten mit diesem Problem.) Deshalb, weil im Vergleich der Liste «was ist der nächste Eintrag (die langschriftliche Form)» keine entsprechende Datei (mit nun zwei Leerzeichen) zu finden war, gab LaTeX dieses Kästchen als lokale Warnung aus, hat sich dann den weiteren Einträgen und Dateien gewidmet.

Als Schrifttype verwende ich Libertine (Projektseite). Anders als Times New Roman ist sie lizenzfrei verfügbar und auch in engeren Spalten noch gut lesbar. Der Zeichensatz ist umfangreich und berücksichtigt Europa etwa mit lateinischen Buchstaben inklusive Akzente.

«Klosterbibliothek» / «Klosterbibliothek v2» stehen in der jetzigen Fassung auf S. 453. Da momentan die gesamte .svg Tafel die Dimension der individuellen Abbildungen bestimmt, schliesst sich die Lineatur von «Klosterbibliothek v2» nahtlos an die von «Klotz» an. Das wäre für mich als Ausnahme akzeptabel. Beim seitenweisen Durchblättern könnten in der Tat die Unterschriften näher an die Stenogramme heran; vielleicht sogar Platz genug, um eine siebente Zeile je Blatt einzuführen. «Muskelzuckungen» (nun auf S. 543) untertrifft die Untergrenze, aber auch dort könnte die Langschrift näher an das Stenogramm heran.

Überlange Worte (etwa auf S. 488, etwa «Lebensmittelzusatzstoff»): im Vergleich zum Stenogramm finde ich sind die langschriftlichen Unterschriften gross genug, um simultan gelesen zu werden. Es ist aber möglich, die deutschprachigen Trennmuster von LaTeX durch eine manuelle Liste zu ergänzen, sinnbildlich mit der Instruktion «prüfe zusätzlich, ob eine Trennung an einer der Stellen bei Le|bens|mittel|zu|satz|stoff besser ist».

Die anderen Ideen und Vorschläge sehe ich mir mal an. Pythonik (talk) 13:57, 21 March 2021 (UTC)

@Thirunavukkarasye-Raveendran Hier sind auch schon die ersten 5 x 6 = 30-Blätter thematischer Stenogrammgruppen. Das Archiv zum Buch kann gelöscht werden. Danke. Pythonik (talk) 19:04, 21 March 2021 (UTC)

22.3.[edit]

  1. Ich muss dich warnen. Ich bin da wie ein Vertreter am Telefon, ich lege nie als erster auf. Wenn dir meine Wünsche zu viel werden musst du bremsen. Ich habe jetzt ein PDF in die Dropbox gelegt: https://www.dropbox.com/s/g4et9ofupn5w29o/Titel%20mit%20Index%20und%20Wortteil%20nur%20A%201.pdf?dl=0
  2. Mit Titelbild, das muss sein für einen Wiedererkennungswert. Wenn das Bild nicht gefällt schlage ich dir andere vor. Es ist ohne Copyright und von mir.
  3. Wenn die altdeutsche Schrift nicht gefällt ändere ich es. (Ich hätte auch noch 10 andere altdeutsche Schriften)
  4. Es gelingt mir nicht die Links auf Commons einzufügen, bzw. beim Öffnen wird eine spezielle App dafür verlangt. Vielleicht kannst du die Links einfügen. Liegt evtl. an s in https, aber ohne s geht es auch nicht.
  5. Geht das Vorwort so in Ordnung? Bist du mit CC0 einverstanden?
  6. Als Markierung der Links ist wohl eine blaue Unterstreichung am besten?
  7. Um den Index am Anfang des PDFs nicht zu lang werden zu lassen, bin ich dafür vor jeden einzelnen Buchstaben (26 ohne Umlaute) je eine Seite mit Index zu setzen, die Fließtext mit einer Teilmenge der Stichwörtern enthält, so dass genau eine Seite gefüllt wird. Wie der erste große Buchstabe umflossen werden kann, um den Platz oben rechts auszunutzen konnte ich nicht rausfinden.
  8. Als Navigation habe ich mal nach meinen Vorstellungen einige Beispielzeilen als Kopfzeile und Fußzeile eingefügt und schon teilweise verlinkt. Das ist für 1000 Seiten nicht zu schaffen per Hand. Ich dachte erst, dass du für die einzelnen Buchstaben je ein einzelnes PDF erstellst und ich die dann zusammenfüge. Ich befürchte aber, dass dann die Verlinkung dabei kaputt geht. Immerhin bleibt die Verlinkung erhalten, wenn ich mitten aus dem PDF einige Seiten rauslösche. Wahrscheinlich solltest du alles in einem Stück erstellen und die Indexseite für jeden einzelnen Buchstaben leer lassen. Die Indexseite kann man noch nachträglich erstellen und reinschieben. Die Wörter auf den Indexseiten ließen sich notfalls auch noch per Hand nachträglich verlinken. Problematisch ist, dass für jede Indexseite eine unterschiedlich dicht geschichtete Teilmenge aus den Stichwörtern rausgesucht werden muss.
  9. (Für mich) steht nun fest, dass das Bildverzeichnis mit Seite 4 (mit "A-Saite") anfängt. Dann kannst du die Seitennummerierung schon fest einplanen.
  10. Ich denke die erste Version sollten wir bald schon rausgeben (auf Commons stellen), noch bevor ich mit meiner Durchsicht fertig bin. Thirunavukkarasye-Raveendran (talk) 16:06, 22 March 2021 (UTC)

31.3[edit]

SVG-Dateien aktualisiert: auf Dropbox (Version: 2021-03-31) Thirunavukkarasye-Raveendran (talk) 09:15, 31 March 2021 (UTC)