28 juin 2023

Ensembles et intervalles [...]

Plusieurs caractÃ¨res ou classes de caractÃ¨res, entourÃ©s de crochets [â€¦] signifient â€œchercher un caractÃ¨re parmi ceux-lÃ â€.

Ensembles

Par exemple, [eao] signifie un caractÃ¨re qui est soit 'a', 'e', ou 'o'.

On appelle cela un ensemble. Les ensembles peuvent Ãªtre combinÃ©s avec dâ€™autres caractÃ¨res dans une mÃªme expression rÃ©guliÃ¨re :

// trouve [t ou m], puis "op"
alert( "Mop top".match(/[tm]op/gi) ); // "Mop", "top"

Bien quâ€™il y ait plusieurs caractÃ¨res dans un ensemble, vous remarquez que lâ€™on ne cherche la correspondance que dâ€™un seul de ces caractÃ¨res.

Lâ€™exemple suivant ne donne donc aucun rÃ©sultat :

// trouve "V", puis [o ou i], puis "la"
alert( "Voila".match(/V[oi]la/) ); // null, pas de correspondance

Lâ€™expression rÃ©guliÃ¨re recherche :

V,
puis une des lettres [oi],
enfin la.

Ce qui correspondrait Ã Vola ou Vila.

Intervalles

Les crochets peuvent aussi contenir des intervalles de caractÃ¨res.

Par exemple, [a-z] est un caractÃ¨re pouvant aller de a Ã z, et [0-5] est un chiffre allant de 0 Ã 5.

Dans lâ€™exemple ci-dessous nous recherchons un "x" suivi par deux chiffres ou lettres de A Ã F:

alert( "Exception 0xAF".match(/x[0-9A-F][0-9A-F]/g) ); // xAF

Ici [0-9A-F] comporte deux intervalles : il recherche un caractÃ¨re qui est soit chiffre entre 0 et 9 compris ou bien une lettre entre A et F comprise.

Si nous voulons y inclure les lettres minuscules, nous pouvons ajouter lâ€™intervalle a-f: [0-9A-Fa-f]. Ou bien ajouter le marqueur i.

Nous pouvons aussi utiliser les classes de caractÃ¨res entre [â€¦].

Par exemple, si nous voulons chercher un caractÃ¨re alphanumÃ©rique, un trait de soulignement \w ou un tiret -, alors lâ€™ensemble sâ€™Ã©crit [\w-].

Il est aussi possible de combiner plusieurs classes, p. ex. [\s\d] signifie â€œun caractÃ¨re dâ€™espacement ou un chiffreâ€.

Par exemple:

\d â€“ Ã©quivaut Ã [0-9],
\w â€“ Ã©quivaut Ã [a-zA-Z0-9_],
\s â€“ Ã©quivaut Ã [\t\n\v\f\r ], plus quelques autres rares caractÃ¨res unicodes dâ€™espacement.

Exemple : \w multi-langue

Comme la classe de caractÃ¨res \w est un raccourci pour [a-zA-Z0-9_], il ne peut pas trouver les idÃ©ogrammes chinois, ni les lettres cyrilliques, etc.

Nous pouvons Ã©crire un motif plus universel, pour rechercher le caractÃ¨re dâ€™un mot quelle que soit la langue. GrÃ¢ce aux propriÃ©tÃ©s Unicode, on obtient facilement : [\p{Alpha}\p{M}\p{Nd}\p{Pc}\p{Join_C}].

DÃ©chiffrons cela. Tout comme \w, nous construisons notre propre ensemble qui contient les caractÃ¨res qui portent les propriÃ©tÃ©s Unicode :

Alphabetic (Alpha) â€“ pour les lettres,
Mark (M) â€“ pour les accents,
Decimal_Number (Nd) â€“ pour les nombres,
Connector_Punctuation (Pc) â€“ pour le trait de soulignement '_' et autres caractÃ¨res similaires,
Join_Control (Join_C) â€“ deux codes spÃ©ciaux 200c et 200d, utilisÃ©s comme liaisons, p. ex. en arabe.

Exemple dâ€™usage :

let regexp = /[\p{Alpha}\p{M}\p{Nd}\p{Pc}\p{Join_C}]/gu;

let str = `Hi ä½ å¥½ 12`;

// trouve toutes les lettres et chiffres:
alert( str.match(regexp) ); // H,i,ä½ ,å¥½,1,2

Cet ensemble est bien sÃ»r encore modifiable : on peut y ajouter ou retirer des propriÃ©tÃ©s Unicode. Plus de dÃ©tail sur ces propriÃ©tÃ©s Unicode dans lâ€™article Unicode: indicateur "u" et classe \p{...}.

Les propriÃ©tÃ©s Unicode p{â€¦} ne sont pas implÃ©mentÃ©es dans IE. Si nous en avons vraiment besoin, nous pouvons utiliser la librairie XRegExp.

Ou simplement utiliser des intervalles de caractÃ¨res dans la langue qui nous intÃ©resse, p. ex. [Ð°-Ñ] pour les lettres cyrilliques.

Intervalles dâ€™exclusion

En plus des intervalles classiques, il existe des intervalles dâ€™exclusion de la forme [^â€¦].

Ils se distinguent par un premier accent circonflexe ^ et correspond Ã nâ€™importe quel caractÃ¨re Ã lâ€™exception de ceux contenus dans ces crochets.

Par exemple :

[^aeyo] â€“ nâ€™importe quel caractÃ¨re sauf 'a', 'e', 'y' ou 'o'.
[^0-9] â€“ nâ€™importe quel caractÃ¨re Ã lâ€™exception des chiffres, Ã©quivalent Ã \D.
[^\s] â€“ tout caractÃ¨re qui nâ€™est pas un espacement, Ã©quivalent Ã \S.

Lâ€™exemple ci-dessous cherche nâ€™importe quel caractÃ¨re nâ€™Ã©tant pas une lettre, un chiffre ou un espace :

alert( "alice15@gmail.com".match(/[^\d\sA-Z]/gi) ); // @ et .

Lâ€™Ã©chappement entre [â€¦]

Habituellement, lorsque nous cherchons prÃ©cisÃ©ment un caractÃ¨re spÃ©cial, nous devons lâ€™Ã©chapper \.. Et si nous cherchons un backslash, nous utilisons \\, etc.

Ã€ lâ€™intÃ©rieur de crochets nous pouvons utiliser une grande majoritÃ© des caractÃ¨res spÃ©ciaux sans Ã©chappement :

Les symbols . + ( ) ne sont jamais Ã©chappÃ©s.
Un tiret - nâ€™est pas Ã©chappÃ© en dÃ©but ou fin dâ€™ensemble (lÃ oÃ¹ il ne peut pas dÃ©finir dâ€™intervalle).
Un accent circonflexe ^ est Ã©chappÃ© uniquement sâ€™il dÃ©bute lâ€™ensemble (sinon il signifie lâ€™exclusion).
Le crochet fermant ] est toujours Ã©chappÃ© (si nous le cherchons prÃ©cisÃ©ment).

En dâ€™autres termes, tous les caractÃ¨res spÃ©ciaux ne sont pas Ã©chappÃ©s, sauf sâ€™ils ont un sens particulier pour un ensemble.

Un point . Ã lâ€™intÃ©rieur de crochets signifie juste un point. Le motif [.,] recherche un caractÃ¨re : soit un point soit une virgule.

Dans lâ€™exemple ci-dessous lâ€™expression rÃ©guliÃ¨re [-().^+] cherche un des caractÃ¨res -().^+:

// Pas besoin d'Ã©chapper
let regexp = /[-().^+]/g;

alert( "1 + 2 - 3".match(regexp) ); // trouve +, -

â€¦ Si vous dÃ©cidez de les Ã©chapper, â€œau cas oÃ¹â€, il nâ€™y aura de toute faÃ§on aucun dâ€™impact :

// Tout Ã©chappÃ©
let regexp = /[\-\(\)\.\^\+]/g;

alert( "1 + 2 - 3".match(regexp) ); // fonctionne aussi: +, -

Intervalles et marqueur â€œuâ€

Sâ€™il y a une paire de seizets dâ€™indirection(surrogate pair) dans lâ€™ensemble, le marqueur u est requis pour quâ€™elle soit interprÃ©tÃ©e correctement.

Par exemple, cherchons [ð’³ð’´] dans la chaÃ®ne ð’³:

alert( 'ð’³'.match(/[ð’³ð’´]/) ); // affiche un caractÃ¨re Ã©trange qui ressemble Ã  [?]
// (la recherche n'a pas fonctionnÃ© correctement, seule une moitiÃ© du caractÃ¨re est retournÃ©e)

Le rÃ©sultat nâ€™est pas celui attendu, car par dÃ©faut une expression rÃ©guliÃ¨re ne reconnait pas une telle paire.

Le moteur dâ€™expression rÃ©guliÃ¨re pense que [ð’³ð’´] â€“ ne sont pas deux mais quatre caractÃ¨res :

la moitiÃ© gauche de ð’³ (1),
la moitiÃ© droite de ð’³ (2),
la moitiÃ© gauche de ð’´ (3),
la moitiÃ© droite de ð’´ (4).

On peut voir le code de ces caractÃ¨res ainsi :

for(let i=0; i<'ð’³ð’´'.length; i++) {
  alert('ð’³ð’´'.charCodeAt(i)); // 55349, 56499, 55349, 56500
};

Mais si nous ajoutons le marqueur u, on aura alors le comportement attendu :

alert( 'ð’³'.match(/[ð’³ð’´]/u) ); // ð’³

Si nous oublions le marqueur u, il y aura une erreur :

'ð’³'.match(/[ð’³-ð’´]/); // Error: Invalid regular expression

En effet sans le marqueur u une paire de seizets est perÃ§ue comme deux caractÃ¨res distincts, donc [ð’³-ð’´] est interprÃ©tÃ© en [<55349><56499>-<55349><56500>] (chacune des paires est remplacÃ©e par ses codes). Il est maintenant Ã©vident que lâ€™intervalle 56499-55349 nâ€™est pas valide : le premier code 56499 est plus grand que le dernier 55349. Ce qui explique lâ€™erreur prÃ©cÃ©dente.

// Cherche un caractÃ¨re entre ð’³ et ð’µ compris
alert( 'ð’´'.match(/[ð’³-ð’µ]/u) ); // ð’´

Exercices

Java[^script]

Trouve-t-elle quelque chose dans la chaÃ®ne de caractÃ¨res Java? Dans la chaÃ®ne JavaScript?

Dans la chaÃ®ne de caractÃ¨res Java, elle ne trouve aucune correspondance, parce que [^script] signifie â€œnâ€™importe quel caractÃ¨re sauf ceux citÃ©sâ€. Lâ€™expression rationnelle cherche donc "Java" suivi dâ€™un autre symbole, mais arrivant en fin de chaÃ®ne, elle nâ€™en trouve aucun.
```
alert( "Java".match(/Java[^script]/) ); // null
```
Oui, car la partie [^script] correspond au caractÃ¨re "S". Qui nâ€™est pas lâ€™un des caractÃ¨res de script. Comme lâ€™expression rationnelle est sensible Ã la casse (pas de marqueur i), elle considÃ¨re bien "S" diffÃ©remment de "s".
```
alert( "JavaScript".match(/Java[^script]/) ); // "JavaS"
```

Trouvez l'heure sous forme hh:mm ou hh-mm

Lâ€™heure peut Ãªtre au format hours:minutes ou hours-minutes. Les nombres â€œhoursâ€ et â€œminutesâ€ sont composÃ©es de deux chiffres : 09:00 ou 21-30.

Ã‰crire une expression rationnelle pour trouver lâ€™heure quelle que soit sa forme :

          let regexp = /your regexp/g;
alert( "Breakfast at 09:00. Dinner at 21-30".match(regexp) ); // 09:00, 21-30
        

P.S. Dans cet exercice, on considÃ¨re nâ€™importe quelle heure comme valide, il nâ€™y a pas besoin dâ€™exclure une heure comme â€œ45:67â€ par exemple. Nous nous occuperons de cela plus tard.

let regexp = /\d\d[-:]\d\d/g;
alert( "Breakfast at 09:00. Dinner at 21-30".match(regexp) ); // 09:00, 21-30

A noter que '-' Ã un sens particulier entre crochet, mais seulement entre deux autres caractÃ¨res, et pas lorsquâ€™il dÃ©bute ou termine lâ€™ensemble, nous nâ€™avons donc pas besoin de lâ€™Ã©chapper ici.

Carte du tutoriel

Commentaires

lire ceci avant de commenterâ€¦