Kaputte Ligaturen beim copy-paste aus einem PDF

Servus!
Wenn ich aus einigen PDFs Texte per copy-paste in ein anderes Programm (HTML-Editor, Wordpress-Backend, etc) kopiere bzw. einfüge, werden Ligaturen immer falsch kopiert und mit einem Leerzeichen abgeschlossen, sodass Worte wie “offen” dann als “off en” in der Kopie erscheinen.

Gibt es irgendeine Möglichkeit dies zu vermeiden oder zumindest eine Function die man in PHP o.ä. schreiben könnte, um diese aufzuspüren und auszutauschen? Search-Replace geht natürlich nicht, weil es ja auch Worte gibt, bei denen am Ende “ff” steht und dort das Leerzeichen dann ja Absicht ist… Es nervt.

Sind das Stand alone Programme bzw. „Web-Seiten“? Was passiert bei einem reinen Texteditor (notepad++, Windows-Editor)?

Also als HTML-Editor verwende ich „Coda“. Das ist eine stand-alone Applikation, ja. Auch beim kopieren in einen puren Editor (entsprechend notepad unter Windows) passiert das.

Die PDF-Dateien werden von einem Zulieferer aus indesign erstellt. Evtl gibt es dort eine Möglichkeit, Ligaturen abzuschalten… hmmmm :thinking:

Ja, das sollte gehen. Vlt. gibt es noch andere Einstellungen für Ligaturen in Indesign, die das Verhalten erklären. Oder es geschieht erst beim Umwandeln in PDF.

Du kannst auch mal probieren, „das andere“ Textauswahlwerkzeug in Acrobat (bei mir heißt das „Text und Bilder bearbeiten“, hab allerdings die Acrobat XI Pro-Version) zu verwenden, u.U. kopiert das die Ligaturzeichen korrekt mit (aber wenn die in der PDF korrekt drin wären, hättest du das Problem nicht :sweat_smile: ).

Nur aus Interesse:

Kopier so ein Wort mal in Word, setz den Text-Cursor rechts neben das überflüssige Zeichen und drück ALT+C. Die vierstellige Zahlenfolge, die dann erscheint, würd mich interessieren.

Yo, das mach ich mal :slight_smile: Anhand der Folge könnte man ja gucken ob es ein „anderes Leerzeichen“ ist als ein normales. Dann aber sollte mein Editor das ja auch erkennen können - kann er aber nicht :thinking: Sobald die Dinger jedenfalls im Internet stehen, ist es in normales Leerzeichen in der mysql Datenbank.

Ein anderer, auch bekannter und nerviger Bug ist, das Umlaute etc die Punkte neben anstatt über dem Character anzeigen - allerdings nur im Firefox. Dafür habe ich aber eine Routine für Wordpress geschrieben, die per search-replace die Teile ersetzt beim speichern eines Beitrages.

Ich liebe Macs auch. :upside_down_face:

Das Problem hab ich auch ständig, allerdings meist mit Dateinamen, die irgendwo in der Bearbeitungskette mal auf nem Mac bearbeitet wurden. Da kommt es dann gerne zu Codierungsfehlern bzw. -unstimmigkeiten.

EDIT: Achja

Ein normales Leerzeichen sollte 0020 sein.

Passiert auch auf Windows. Leider.

Auch mit Texten, die nie was anderes als Windows gesehen haben?

Ja. Auch da kommt es aber drauf an, aus welchem Programm das PDF erzeugt wurde. Es scheint ein Bug bei Adobe-Programmen zu sein. Tritt immer bei inDesign und Konsorten auf. Eine meiner Grafikerinnen ist “windows only” und da passiert das Selbe. Vorher dachte ich auch, dass es evtl. an der verwendeten Schriftart liegt, da diese immer die gleiche war. Wenn direkt aus indesign ins Wordpress etc kopiert wird, passiert das nicht. Problem dabei: Viele der Kunden und auch meiner Mitarbeiter, die dann selbst ihre Texte einfügen, haben kein inDesign und sind auf die PDF Vorlage angewiesen.

Interessant. :thinking:

Mit dem Adobe-Kram kenne ich mich abseits von Acrobat leider gar nicht aus, vlt. kann man was an der Zeichencodierung beim Export drehen?

Könnte schwierig werden, das den Zulieferern einzutrichtern :smiley: Aber ich check auch das mal ab.

1 „Gefällt mir“

habe leider keine pdf mit Ligaturen um es selbst zu überprüfen. Du könntest aber z.B. mit Inkscape den Text direkt aus der pdf in eine svg exportieren. Vielleicht übernimmt der dann die Ligaturen nicht.
Der Befehl dafür lautet: inkscape “input.pdf” --export-filename=output.svg

1 „Gefällt mir“

Aber wie bekomme ich das dann wieder in “Echttext”? Dann sinds ja im Grunde “Pfade” im SVG. Am Ende des Tages soll das aber auch wegen SEO etc natürlich auch für Google lesbar sein, auf Mobil funktionuggeln etc.

Der Hintergrund ist, dass wir Websites für einige Print-Magazine betreiben und befüllen müssen. Derzeit ist der Aufwand wegen der Ligaturen enorm, da wir dann im Grunde ein weiteres Mal “Korrektur lesen” müssen bei jedem Artikel.

Der Text der in der svg erzeugt wird ist auch kopierbar, in meinem Beispiel kann ich den ohne Probleme z.B. danach in eine Textdatei copy pasten. Evtl könnte es je nach Font Probleme geben, aber bei mir hat es bisher immer geklappt.

2 „Gefällt mir“

Cool das check ich auch mal

Berichte dann ob es geklappt hat. Habe wie gesagt kein pdf Dokument mit Ligaturen um das zu überprüfen.

1 „Gefällt mir“

Hab vor einiger Zeit selbst mal damit rumgespielt. Der leider, zu machende Zwischenschritt per copy paste half bei paar sache, um die Geschichten erstmal als reine Zeichen in die Ablage zu bringen. Die OpenOffice möglichkeiten sind hier in der Hinsicht auch umfangreich. Da wird es unter Garantie Import-Scripte für geben. Kann hier aber auch ganz falsch liegen.

1 „Gefällt mir“

yoyo, ich dachte ich update das mal eben hier.

Hatte eben das gleiche Problem und bin dabei auf den Thread hier gestoßen. Tatsächlich konnte ich es im Endeffekt lösen, indem ich die PDF neu als JPG abgespeichert habe. Wenn man die dann am Mac mit Vorschau öffnet, ist der Text immernoch kopierbar und die Ligaturen werden nicht falsch übernommen. Hat zumindest bei mir jetzt so geklappt. Puh, lucky ey haha

1 „Gefällt mir“