Regex, kurz für Regular Expressions, ist wie eine besondere Codesprache für die Arbeit mit Text. Es hilft dabei, Text zu finden, zu ändern und zu überprüfen. Stellen Sie sich vor, Sie möchten E-Mails in einem Dokument finden oder bestimmte Wörter ändern; Regex ist Ihr hilfreiches Werkzeug.
Was macht Regex cool?
Regex ist fantastisch, um schnell spezifische Informationen aus großen Textmengen zu finden und auszuwählen. Es ist wie die Suche nach der berühmten Nadel im Heuhaufen und erleichtert Unternehmen die kluge Nutzung ihrer Arbeitskraft. Eine weitere coole Sache ist, dass Regex in vielen verschiedenen Programmiersprachen wie Python, R, Alteryx, Tableau und mehr funktioniert.
Stellen Sie sich vor, Sie möchten überprüfen, ob eine E-Mail gültig ist. Mit Regex können Sie ein Muster wie dieses erstellen: ([\\w\\.]+@[\\w\\.]+)
. Es ist wie ein Geheimcode zum Finden von E-Mails. Außerdem ist Regex schnell und eignet sich gut zum Testen und Beheben von Code.
Schnellreferenz
Hier ist eine einfache Anleitung, um sich an einige wichtige Regex-Codes zu erinnern:
\\d
eine Ziffer, also 1 oder 2 oder …. 9\\D
keine Ziffer, also jedes andere zeichen ausser 1 oder 2 oder …. 9\\w
Ein Wort-Zeichen, das sind kleine + grosse Buchstaben, Ziffern und der Unterstrich_\\W
kein Wort-Zeichen\\s
Ein Leerzeichen oder Tabulator\\S
kein Leerzeichen oder Tabulator, also fast alle zeichen
Mit den folgenden sog. Quantoren, gibt man an, wie oft sich ein bestimmter Ausdruck wiederholen darf. Sie werden hinter einen Ausdruck geschrieben und geben dann an, wie oft dieser vorkommen darf:
Zeichen | Bedeutung |
---|---|
a? | a kommt kein- oder einmal vor. |
a+ | a kommt mindestens einmal vor. |
a* | a kommt kein oder mehrmals vor. |
a{3} | a kommt genau drei mal vor. |
a{3,} | a kommt mindestens drei mal vor. |
a{,5} | a kommt maximal fünf mal vor. |
a{3,5} | a kommt mindestens drei, aber maximal fünf mal vor. |
^a | Die Zeichenkette beginnt mit einem Text der auf a passt |
ausdruck$ | Die Zeichenkette endet mit einem Text der auf ausdruck passt |
^ab$ | Die Zeichenkette passt von Anfang bis Ende auf ab |
Zeichenklassen sind eine abkürzende Schreibweise für eine bestimmte Auswahl von Zeichen. Es stehen einige vordefinierte Zeichenklassen zur Auswahl. Diese sind oft abhängig von der Regex-Implementierung.
Zeichen | Bedeutung |
---|---|
. | Jegliches Zeichen (Ausnahme der Zeilenumbruch, siehe auch bei den Modifiern) |
A-Z | ABCDEFGHIJKLMNOPQRSTVWXYZ |
a-z | abcdefghijklmnopqrstvwxyz |
0-9 oder \d | 0123456789 |
\w | Wort = Mindestens ein Buchstabe, eine Ziffer oder Unterstrich (Abkürzung für [a-zA-Z0-9_]). |
\W | Kein Wort. Abkürzung für [^a-zA-Z0-9_] |
\d | Ziffer (Abkürzung für [0-9]). |
\D | keine Ziffer (Abkürzung für [^0-9]). |
\b | Wortgrenze (Position zwischen einem Wort und einem Leerzeichen). |
\B | keine Wortgrenze (Abkürzung für [^\b]). |
\s | s,g. Whitespaces, also Leerzeichen, Zeilenumbrüche, Tabulatoren etc. (Abkürzung für [\f\n\r\t\v\u00A0\u2028\u2029]) |
\S | kein Whitespace (Abkürzung für [^\f\n\r\t\v\u00A0\u2028\u2029]). |
Fazit
Es gibt Websites wie regexone.com, die es Ihnen ermöglichen, Regex interaktiv zu lernen, indem sie Sie durch das gesamte Toolset führen. Sie können den Musterabgleich auch auf regex101.com üben, wo Sie bestimmte Zeichenketten und Regex eingeben können, um live zu sehen, welcher Teil der Zeichenkette übereinstimmt, wenn Sie bestimmte Metazeichen, Erfassungsgruppen usw. verwenden.