]> Das Handbuch zum Editor für reguläre Ausdrücke Jesper K. Pedersen
blackie@kde.org
2001-07-03 0.1 &underFDL; 2001 Jesper K. Pedersen Dieses Handbuch beschreibt die Benutzung des Editors für reguläre Ausdrücke KDE regulärer Ausdruck
Einführung Mit dem Editor für reguläre Ausdrücke können reguläre Ausdrücke mit graphischer Unterstützung zusammengestellt werden und müssen nicht mit komplizierten und kryptischen Zeichenfolgen definiert werden (Dies sieht zum Beispiel etwa so aus: ^.*kde\b.) Die hauptsächlichen Nachteile dieser Art sind: Es ist für Nicht-Programmierer schwierig zu verstehen. Sie müssen manche Zeichen speziell kennzeichnen (um zum Beispiel einen Stern zu finden, müssen Sie \* tippen). Sie müssen sich die Regeln für die Reihenfolge merken. (Was trifft auf x|y* zu? Ein einzelnes x oder eine Anzahl y, ODER eine Anzahl x und y's gemischt?) Mit dem Editor für reguläre Ausdrücke können Sie reguläre Ausdrücke auf eindeutige Weise zeichnen. Der Editor löst zumindest die beiden letzten Probleme. Ob dieser Editor reguläre Ausdrücke für Nicht-Programmierer zugänglich macht, weiß der Autor nicht. Falls Sie aber ein Nicht-Programmierer sind, der dank diesem Editor reguläre Ausdrücke verwenden kann, schicken sie ihm bitte eine kurze Nachricht. Was ein regulärer Ausdruck ist Ein regulärer Ausdruck ist ein Weg Bedingungen anzugeben, die für eine bestimmte Sitation erfüllt sein müssen. Im normalen Suchdialog eines Texteditors können sie nur nach genau der eingegebenen Zeichenfolge suchen. Mit einem regulären Ausdruck hingegen geben Sie an wie das Suchergebnis aussehen soll. Beispiele hierfür sind: Suche das Wort KDE, aber nur am Zeilenanfang. Oder suche das Wort der, aber nur wenn es allein steht. Oder suche alle Dateien, die mit test beginnen und danach eine beliebige Anzahl Ziffern haben, wie test107 und test007. Reguläre Ausdrücke werden zusammengesetzt aus kleineren regulären Ausdrücken, genau so wie Lego-Bauwerke aus kleineren Teilen zusammengesetzt werden. Genau wie bei Lego gibt es auch für reguläre Ausdrücke elementare Bausteine. Diese werden im folgenden anhand von Beispielen vorgestellt. Suche nach normalem Text. Wenn nur nach einem bestimmten Text gesucht werden soll, sind reguläre Ausdrücke keine sonderlich gute Wahl. Grund dafür ist, dass in regulären Ausdrücken gewisse Zeichen eine Spezialbedeutung besitzen. Diese sind .*|$. Wenn also nach dem Text kde. (also den Zeichen kde gefolgt von einem Punkt), gesucht werden soll, muss dies als kde\. angegeben werden.Der Editor für reguläre Ausdrücke übernimmt dieses so genannte Escapen für Sie. Das Schreiben von \. anstelle von . nennt man Escaping. Finden von URLs Wenn Sie in &kde; etwas das wie eine URL aussieht auswählen, so ermöglicht Ihnen &klipper;, diese ausgewählte URL mit &konqueror; zu öffnen. &klipper; ermöglicht dies, indem es den ausgewählten Text mit mehreren verschiedenen regulären Ausdrücken vergleicht und bei Übereinstimmung eine der URL entsprechende Funktion anbietet. Der reguläre Ausdruck für URLs sagt (unter anderem), dass die Adresse mit http:// starten muss. Dies wird durch den regulären Ausdruck erreicht, der ein Dach ^vor das http://setzt. Die erwähnte Anwendung ist ein Beispiel bei dem die Position übereinstimmen muss. Auf ähnliche Weise kann auch das Ende der Zeile durch das $-Zeichen gefunden werden. Suche nach dem Wort <literal>der</literal>, aber nicht <literal>o</literal><emphasis>der</emphasis>, <literal>glie</literal><emphasis>der</emphasis><literal>t</literal> oder <emphasis>der</emphasis><literal>einst</literal>. Zwei weitere Grenzen können auf gleiche Weise gefunden werden. Einerseits die Wortgrenze andererseits die Nicht-Wort-Grenze. Diese werden durch \b für die Wortgrenze und \B für die Nicht-Wort-Grenze gekennzeichnet. So kann also die Suche nach dem Wort der durch den regulären Ausdruck \bthe\b erfolgen. Dies bedeutet, dass wir nach dem Wort der ohne Buchstaben hinten und vorne (also einer Wortgrenze) suchen. Die vier Grenzen für reguläre Ausdrücke werden im Editor für reguläre Ausdrücke über die vierGrenzen-Werkzeuge eingefügt. Suche nach entweder <literal>dies</literal> oder <literal>das</literal> Angenommen Sie wollen nach den beiden Wörtern dies und das suchen. Mit einer normalen Suchfunktion sind Sie gezwungen, dies in zwei Schritten durchzuführen: Im ersten suchen Sie nach dies, im zweiten nach das. Mit der Benutzung von regulären Ausdrücken, ist es möglich, gleichzeitig nach beiden Begriffen zu suchen. Hierzu wird der Ausdruck dies|das verwendet, die beiden gesuchten Wörter also durch einen vertikalen Strich getrennt.Auf beiden Seiten des vertikalen Striches können wiederum reguläre Ausdrücke stehen. Es ist also nicht nur möglich, nach zwei unterschiedlichen Wörtern, sondern sogar nach zwei unterschiedlichen regulären Ausdrücken zu suchen. Im Editor für reguläre Ausdrücke schreiben Sie den senkrechten Strich nicht selbst, sondern wählen stattdessen das Alternativen-Werkzeug und fügen die verschiedenen Teile (die selbst reguläre Ausdrücke sind) übereinander. Finden von irgendwas Reguläre Ausdrücke werden oft mit den Platzhaltern auf der Befehlszeile verglichen, also der Möglichkeit eine Menge von Dateien mit dem Stern (*) oder dem Fragezeichen (?) einzuschränken. Sie kennen sicher die Platzhalter in den folgenden Beispielen: ls *.txt - Hier ist *.txt der Platzhalter für alle Dateien, die mit der Erweiterung .txt enden. cat test??.res - wird auf alle Dateien angewandt, die mit test beginnen, dann zwei beliebige Zeichen enthalten, auf die die Dateierweiterung .res folgt. Auf der Befehlszeile entspricht der Stern (*) einer beliebigen Anzahl beliebiger Zeichen. Mit anderen Worten, der Stern steht für Alles. Bei regulären Ausdrücke erreichen sie diesen Effekt mit der Zeichenfolge .*. Der Punkt entspricht einem beliebigen Zeichen, also jeweils nur einem einzigen Zeichen und der Stern besagt, dass der reguläre Ausdruck davor beliebig oft wiederholt werden kann. Zusammen ergibt das also eine beliebige Anzahl beliebiger Zeichen. Auf den ersten Blick erscheint dies übermässig kompliziert, eröffnet aber mächtige Möglichkeiten. Ein weiterer einfacher regulärer Ausdruck ist a. Der Buchstabe a stellt einen regulären Ausdruck dar, der einem einzelnen Buchstaben entspricht, dem Buchstaben a. Wenn wir diesen mit einem Stern (*) kombinieren, also a*, haben wir einen regulären Ausdruck, der jeder beliebigen Anzahl a's entspricht. Es ist möglich, mehrere reguläre Ausdrücke hintereinander zu stellen, z.B. ba(na)*. (na)* sagt aus, dass der Inhalt zwischen den Klammern beliebig oft wiederholt wird. Mit diesem Ausdruck würden Sie also unter anderem die folgenden Texte finden: ba, bana, banana, banananananananana. Mit diesen Informationen ist es jetzt nicht schwer, die Befehlszeilen-Platzhalter test??.res als regulären Ausdruck nachzubilden. Dieser heisst test..\.res. Der einzelne Punkt ist jedes beliebige Zeichen. Um einen einzelnen Punkt zu finden, muss \. angegeben werden. Dies wird Escapen genannt. Mit anderen Worten findet der reguläre Ausdruck \. einen Punkt, während der einzelne Punkt jedes Zeichen findet. Im Editor für reguläre Ausdrücke wird ein wiederholter regulärer Ausdruck mit dem Wiederholungs-Werkzeug erstellt. Ersetzen von <literal>&</literal> mit <literal>&amp;</literal> in einem HTML-Dokument In HTML muss das Zeichen & als &amp; geschrieben werden. Das ist ähnlich wie das Escapen in einem regulären Ausdruck. Stellen Sie sich vor, Sie hätten in einem gewöhnlichen Editor (z.B. Kate oder (X)Emacs) ein HTML-Dokument erstellt und hätten dabei diese Regel vollkommen vergessen. In diesem Fall müssten Sie also alle Vorkommen von & durch &amp; ersetzen. Dies können Sie einfach mit einem gewöhnlichen Ersetzen erledigen. Es gibt aber ein kleines Problem. Wenn Sie manchmal doch an die Regel gedacht haben, funktioniert das nicht. Ein gewöhnliches Ersetzen würde zur Folge haben, dass &amp; durch &amp;amp; ersetzt würde. Sie wollen aber eigentlich, dass alle Vorkommen von & ersetzt werden, die nicht von den Buchstaben amp; gefolgt sind. Dies wird mit vorausschauenden regulären Ausdrücken erreicht. Der reguläre Ausdruck, der ein kaufmännisches Und nur dann findet, wenn es nicht von den Buchstaben amp; gefolgt ist, sieht wie folgt aus: &(?!amp;) Es ist natürlich leichter, diesen Ausdruck im Editor zu lesen, wo dafür die vorausschauenden Werkzeuge zur Verfügung stehen. Benutzung des Editors für reguläre Ausdrücke Dieses Kapitel erklärt die Arbeitsweise des Editors für reguläre Ausdrücke. Aufbau der Benutzungsschnittstelle Der bedeutendste Teil des Editors ist natürlich der Arbeitsbereich, wo ein regulärer Ausdruck gezeichnet wird. Oberhalb des Arbeitsbereichs gibt es zwei Werkzeugleisten, die erste enthält Bearbeitungsaktionen - ähnlich den Werkzeugen in einem Zeichenprogramm. Die zweite Werkzeugleiste enthält den Knopf für die "Was ist das?"-Hilfe und Knöpfe für Rückggängig und Wiederherstellen. Unterhalb des Arbeitsbereichs steht der aktuell bearbeitete reguläre Ausdruck in seiner ASCII-Notation. Diese wird laufend nachgeführt, wenn im graphischen Editor eine Änderung vorgenommen wird. Umgekehrt können auch Änderungen in der ASCII-Notation vorgenommen werden, die dann ebenfalls unmittelbar auch im graphischen Editor dargestellt werden. Schlussendlich finden sich auf der linken Seite des Eingabebereichs einige vordefinierte reguläre Ausdrücke. Dafür gibt es zwei Gründe: (1) Wird ein vordefinierter regulärer Ausdruck verwendet wird er verständlicher dargestellt. So wird zum Beispiel der reguläre Ausdruck ".*"durch ein Symbol mit dem Text "anything"dargestellt. (2) Wenn Sie einen regulären Ausdruck erzeugen, können Sie möglicherweise aus der Menge der vordefinierten Ausdrücke einige direkt benutzen. Wie Sie selbst definierte reguläre Ausdrücke speichern können, sehen sie unter Benutzerdefinierte reguläre Ausdrücke. Bearbeitungswerkzeuge Für diesen Abschnitt ist es erforderlich, dass Sie das Kapitel Was ist ein regulärer Ausdruck schon gelesen haben oder über äquivalentes Wissen verfügen. Alle Bearbeitungswerkzeuge befinden sich oberhalb des Arbeitsbereichs. Im folgenden wird jedes einzelne davon beschrieben. Auswahlwerkzeug Das Auswahlwerkzeug wird gebraucht, um Elemente auszuwählen, welche ausgeschnitten oder verschoben werden sollen. Es funktioniert gleich wie in Zeichenprogrammen. Textwerkzeug Dieses Werkzeug dient dem Einfügen von gewöhnlichem Text. Der Text wird Zeichen für Zeichen auf Gleichheit überprüft, es müssen hierfür auch keine Zeichen speziell gekennzeichnet werden. Buchstabenwerkzeug Mit diesem Werkzeug werden Zeichenbereiche eingefügt. Zum Beispiel alle Zeichen zwischen "a" und "z" oder "0" und "9". Bei der Auswahl dieses Werkzeugs erscheint ein Dialog, in dem der Zeichenbereich eingegeben werden kann. Siehe die Beschreibung von wiederholten regulären Ausdrücken. Werkzeug für beliebige Zeichen Dies ist der reguläre Ausdruck "Punkt" (.). Er entspricht jedem beliebigen Zeichen. Wiederholungswerkzeug Dieses Werkzeug dient dem Wiederholen von Teilausdrücken. Darunter sind die regulären Ausdrücke "Stern" (*), "Plus" (+), "Fragezeichen" (?) und Bereiche ({3,5}). Beim Einfügen mit diesem Werkzeug erscheint ein Dialogfenster, in dem die Anzahl Wiederholungen eingegeben werden kann. Was wiederholt werden soll, kommt im Innern dieses Elements zu stehen. Wiederholte Teilausdrücke können sowohl von innen nach außen als auch von außen nach innen erzeugt werden. Es spielt also keine Rolle, ob zuerst die Wiederholung oder der zu wiederholende Teilausdruck eingefügt wird. Siehe die Beschreibung von Wiederholten regulären Ausdrücken. Alternativen-Werkzeug Dies ist der reguläre Ausdruck der Alternative (|). Alle Alternativen werden übereinander gezeichnet. Siehe die Beschreibung des Alternativen regulären Ausdrucks Zusammensetzungswerkzeug Das Zusammensetzungswerkzeug stellt keinen regulären Ausdruck dar. Es wird stattdessen gebraucht, um Teilausdrücke zusammenzufassen und diese nur durch einen Titel gekennzeichnet, darzustellen. Zeilenanfang/-ende-Werkzeuge Die Zeilenanfangs und -ende-Werkzeuge finden den Beginn respektive das Ende einer Zeile. Siehe die Beschreibung von Ortsbezogenen regulären Ausdrücken. (Nicht-)Wortgrenzen-Werkzeuge Die Wortgrenzen-Werkzeuge finden Wortgrenzen respektive Nicht-Wortgrenzen. Siehe die Beschreibung von Wortgrenzen in regulären Ausdrücken Positiv/Negativ vorausschauende Werkzeuge Die vorausschauenden Werkzeuge definieren entweder einen positiven oder negativen regulären Ausdruck. Der gefundene Teilausdruck selbst ist jedoch nicht Teil der gesamten gefundenen Zeichenkette. Bemerkung: Vorausschauende reguläre Ausdrücke dürfen nur am Ende von regulären Ausdrücken verwendet werden. Der Editor für reguläre Ausdrücke erzwingt dies jedoch nicht. Siehe die Beschreibung von vorausschauenden regulären Ausdrücken. Benutzerdefinierte reguläre Ausdrücke Links vom Arbeitsbereich ist eine Liste mit benutzerdefinierten regulären Ausdrücken. Einige vordefinierte reguläre Ausdrücke werden mit &kde; mitgeliefert, weitere können Sie selbst speichern. Mit diesen regulären Ausdrücken wird zweierlei erreicht (Details. Erstens werden Bausteine für eigene reguläre Ausdrücke zur Verfügung gestellt und zweitens werden häufig gebrauchte reguläre Ausdrücke schöner dargestellt. Ihren eigenen regulären Ausdruck speichern Sie, indem Sie im Arbeitsbereich auf die rechte Maustaste klicken und Regulären Ausdruck speichern wählen. Wenn der zu speichernde reguläre Ausdruck eine Zusammensetzung ist, so werden reguläre Ausdrücke, die ihn verwenden, ebenfalls schöner dargestellt. Benutzerdefinierte reguläre Ausdrücke können gelöscht oder umbenannt werden, indem mit der rechten Maustaste das Kontextmenü geöffnet und der entsprechende Menüeintrag ausgewählt wird. Berichten von Fehlern und Wünschen Fehlermeldungen und Wünsche zur Funktionalität werden mit der KDE-Fehlerverfolgung gemeldet. Bevor Sie eine Fehlermeldung abschicken oder eine Funktionalitätserweiterung wünschen, prüfen Sie bitte, ob nicht schon jemand dasselbe bemerkt oder gewünscht hat. Fragen und Antworten Unterstützt der Editor für reguläre Ausdrücke Rückwärtsreferenzen? Im Moment wird dies nicht unterstützt. Es ist für die nächste Version geplant. Unterstützt der Editor für reguläre Ausdrücke die Anzeige von Übereinstimmungen? Nein, es ist Ziel, dies in der nächsten Version zur Verfügung zu stellen. Ich bin Entwickler einer &kde;-Anwendung. Wie kann ich dieses GUI-Element in meiner Anwendung benutzen? Vergleichen Sie die Dokumentation für die Klasse KRegExpEditorInterface. Ich kann den Knopf <emphasis>Regulären Ausdruck bearbeiten</emphasis> in &konqueror; oder einer anderen &kde;-Anwendung nicht finden. Der Editor für reguläre Ausdrücke befindet sich im Paket tdeutils. Ist dieses nicht installiert, gibt es auch den Knopf Regulären Ausdruck bearbeiten nicht. Mitwirkende und Lizenz Copyright für die Dokumentation 2001, Jesper K. Pedersen blackie@kde.org Copyright für die Übersetzung 2002, Gregor Zumstein zumstein@ssd.ethz.ch &underGPL; &underFDL;