Come trovare i tag html con regex

Può capitare di dover selezionare soltanto i tag del linguaggio HTML in un documento.

Per farlo si può utilizzare questa espressione regolare.

<[^>]+>

La regex si basa sull'utilizzo di un set di caratteri che esclude il simbolo > di chiusura dalla selezione e da un quantificatore +.

Un esempio pratico

Nel seguente testo è presente un documento ipertestuale con alcuni tag Html.

Come è già noto, i tag del linguaggio Html possono avere lunghezze differenti ( es. <p>, <html>, <ul>, ecc. ).

come selezionare i tag HTML nel regex

L'espressione regolare seleziona esclusivamente i tag html, lasciando stare tutto il resto.

Inoltre, nel matching la regex individua sia i tag minuscoli che maiuscoli o misti. E' un gran vantaggio.

Nota. L'espressione seleziona anche gli eventuali attributi posti all'interno del tag.

Come funziona l'espressione

L'espressione regolare individua le parti del testo comprese tra il simbolo < e >.

Poi grazie al quantificatore + seleziona tutto ciò che è compreso tra < e >.

Nota. Il set di caratteri [^>] è invece necessario per far terminare la selezione al primo simbolo di chiusura. Se scrivessi semplicemente l'espressione <.+>, la regex selezionerebbe tutto il testo dall'inizio fino all'ultimo simbolo di chiusura > dell'ultimo tag.