PHP remove_empty_tags

klamm · 4 November 2009

Bin ich zu doof oder finde ich im ganzen Netz keine Lösung zum entfernen von leeren HTML-Tags? (Leerzeichen ist auch "leer"). Da das ja nicht bei allen Tags sinnvoll ist, würde ich der Function gerne die outer-Tags übergeben.

PHP:

$tags = Array('p','div');
remove_empty_tags($string,$tags);

// folgende Vorkommen sollten hier also weg-gestipped werden
// <div>
//
// </div>
// <p> </p>
// <p>  </p>
// <p><strong> </strong></p>

theHacker · 4 November 2009

PHP:

function remove_empty_tags($string, $tags)
{
  // NOTE: $tags must not contain RegExp special chars!!
  $tags = implode('|', $tags);
  $string = preg_replace("~(.*)<($tags)>(\\s*)</\\2>(.*)~i", '\1\4', $string);
  return preg_replace("~(.*)<(?:$tags)\\s?\\/>(.*)~i", '\1\2', $string);
}

Ohne Gewehr (*peng*). Musst vermutlich noch dran rumbasteln.

edit:
was verbessert, trotzdem ungetestet

klamm · 4 November 2009

Thx schonmal ... aber Dein Code hat das Problem, was ich auch habe. Er geht nicht rekursiv nach innen. ist ja auch ein "leerer" -Tag. Hm man könnte innerhalb der gefundenen Tags einfach strip_tags() anwenden vllt.?

Edit: Oder eher mit preg_replace_callback() arbeiten.
Und dann rekurvis wieder aufrufen. *bastel*

theHacker · 4 November 2009

klamm schrieb:
Thx schonmal ... aber Dein Code hat das Problem, was ich auch habe. Er geht nicht rekursiv nach innen.

Rekursiv = Baum aufbauen... und das dauert.

klamm schrieb:
Hm man könnte innerhalb der gefundenen Tags einfach strip_tags() anwenden vllt.?

Das löscht ja auch volle Tags weg. Aber das hat mich auf ne Idee gebracht...

Wenn du mit preg_replace_callback() arbeitest, testest du innerhalb eines Tags, ob noch was übrig bleibt, wenn du alle Tags (nur <...>, nicht den Inhalt! "FOO" ist ja nichtleer) entfernst. Denk aber dran, Bilder und sowas vom Löschen auszunehmen.

edit:
Jo, preg_replace_callback() :yes:

klamm · 4 November 2009

strip_tags() entfernt nur die Tags an sich, nicht den Inhalt.
Sollte also als Billigvariante funzen.

Edit: Darf ich fragen, was Du mit dieser Zeile vorhattest?

PHP:

return preg_replace("~(.*)<(?:$tags)\\s?\\/>(.*)~i", '\1\2', $string);

theHacker · 4 November 2009

klamm schrieb:
strip_tags() entfernt nur die Tags an sich, nicht den Inhalt.
Sollte also als Billigvariante funzen.

Ah, ok, Denkfehler.

klamm schrieb:
Edit: Darf ich fragen, was Du mit dieser Zeile vorhattest?

Leere XML-Tags entfernen: und <div/> sind auch leere Tags.

klamm · 4 November 2009

Also die GANZ billig Variante ist Deine ...

PHP:

preg_replace("~(.*)<($tag)>(\\s*)</\\2>(.*)~i", '\1\4', $string);

Problem ist nur, dass man im Prinzip mit dem ersten (innersten) Tag anfangen, und danach noch X-Mal aufrufen müsste, damit alles beseitigt ist.



Muss also Array('strong','b','p') sein ... dann genügt 3x aufrufen.

Die oberbillig-Variante wäre, es pauschal (3*max_verschachtelungen) aufzurufen. Ansonsten hab ich grad an ner Regexp gebastelt, die mir den innermost-genesteten Tag beschafft, bis ich dann gemerkt habe, dass ich ja den outermost-Tag brauche. :ugly:

Für den strip_tags callback brauch im Prinzip sowas

grün = *

klamm · 4 November 2009

Lukas Spaghetti-Variante
NICHT NACHMACHEN!!!

PHP:

// leere tags (auch verschachtelte) entfernen
// ALLE in frage kommenden Tags müssen angegeben werden
function remove_empty_tags($string,$tags){
   $anz = count($tags); // anzahl tags
   $nest = 3; // max verschachtelung leerer tags
   $tags = implode('|', $tags);
   for($i=1;$i<=$anz*$nest;$i++)
       $string = preg_replace("~(.*)<($tags)>( |\\x00|\\xa0|\\s)*</\\2>(.*)~i", '\1\4', $string);
   return $string;
}

// aufruf
$string = "<p><p><b><strong>    <p></p>  </strong></b></p></p>";
$tags = Array('p','strong','b');
echo remove_empty_tags($string,$tags);

B2T · 6 November 2009

Ich habe mal einen Vorschlag erstellt, bei dem die Verschachtelungstiefe unbegrenzt ist. Es werden immer alle von innen nach außen entfernt.

PHP:

// Leere Tags entfernen
function remove_empty_tags ($string, $tags) {
    $p_o_tag = '<('.implode('|', $tags).')(\s.*[^\/])?>';
    $p_empty = '( |\x00|\xa0|\s)*';
    $p_cl_tag = '<\/\\1>';
    while (
        preg_match('/'.$p_o_tag.$p_empty.$p_cl_tag.'/', $string)
    ) {
        $string =
            preg_replace(
                '/'.$p_o_tag.$p_empty.$p_cl_tag.'/', '', $string
            );
    }
    return $string;
}

// Aufruf
$string = "<p><p><b><strong>    <p></p>  </strong></b></p></p>";
$string = "<div>"{$string}"</div>";
$tags = Array('p', 'strong', 'b');
echo remove_empty_tags($string, $tags); // ==> '<div>""</div>'

klamm · 6 November 2009

Ah super. Macht zwar jedesmal einen preg_match() mehr, aber dafür ggf. weniger oft unnötige Durchgänge. Edit: Mach noch /i rein ... damit <tag> und <TAG> funzt.

Edit2:
Ah nice, der kann auch handeln.

theHacker · 6 November 2009

Verbesserungsvorschlag:

PHP:

$p_o_tag = '<('.implode('|', $tags).')([^\/])?>';

Ob vor der spitzen Klammer-zu noch genau ein Leerzeichen und danach beliebig viele andere Zeichen kommen, ob du gleich auf besagte Klammer wartest, is egal.

Liest sich leichter und is vielleicht auch ne Femtosekunde schneller :mrgreen:

klamm · 6 November 2009

theHacker schrieb:
Verbesserungsvorschlag:

PHP:

$p_o_tag = '<('.implode('|', $tags).')([^\/])?>';

Öhm aber das .* darf nich raus, oder? Nur das \s ...

Edit: Könnte man das if(preg_match) -> preg_replace nicht vereinen?
Billige Idee für "do_solange_wie_preg_replace_was_macht"

PHP:

do{
$string_old = $string;
$string =  preg_replace(              '/'.$p_o_tag.$p_empty.$p_cl_tag.'/', '', $string
            );
    }
while($string_old!=$string);

theHacker · 6 November 2009

Ahh... jetzt gesehen, ich hab das [^\/] als [^\/]* gelesen.

PHP:

$p_o_tag = '<('.implode('|', $tags).')([^\/])*>';

So müsste es einfach sein und dasselbe tun, wenn ich das richtig sehe :think:

Erst spitze Klammer öffnen, danach den Tag, danach, alles außer Slash, bis zur spitzen Klammer-zu.

Sebmaster · 6 November 2009

Ist der Regex dann nicht greedy? :-?

theHacker · 6 November 2009

Jupp, sollte er nicht sein :-?

Is aber bei B2T's Variante auch schon der Fall.

klamm · 6 November 2009

Sebmaster schrieb:
Ist der Regex dann nicht greedy?

Dehsalb will ich zumindest vermeiden, dass im Prinzip 2x der gleiche Ausdruck ausgewertet werden muss bei jedem Durchgang ... (match und replace). Oder is PHP (oder sonstwer) so schlau und cached das, sofern der String sich nicht geändert hat?

tleilax · 6 November 2009

Dem RegExp kann auf jeden Fall der Modifier S nicht schaden.

Und als weitere Optimierung würde ich beim preg_match() die Treffer in einer Variable speichern, um sie im weiteren Schritt mittels str_replace() zu ersetzen.

[edit]

Achja, $p_empty muss ja nicht weiter verarbeitet werden, also kann man da auch das Capturen weglassen:

PHP:

    $p_empty = '(?: |\x00|\xa0|\s)*';

Analog die zweite Capturegroup bei $p_o_tag:

PHP:

    $p_o_tag = '<('.implode('|', $tags).')(?:\s.*[^\/])?>';

B2T · 6 November 2009

Vielen Dank für Eure Anmerkungen. Habe soweit wie möglich alles an Feedback berücksichtigt. Hier das Ergebnis:

PHP:

// Leere Tags entfernen
function remove_empty_tags ($string, $tags) {
    $p_o_tag = '<('.implode('|', $tags).')(?:\s[^>]*[^\/])?';
    $p_o_tag_short_tag = '\/>';
    $p_o_tag_long_tag = '>';
    $p_empty = '(?: |\x00|\xa0|\s)*';
    $p_cl_tag = '<\/\\1>';
    $pattern =
        $p_o_tag
        .'(?:'.$p_o_tag_short_tag
        .'|'.$p_o_tag_long_tag.$p_empty.$p_cl_tag.')';
    while (
        $string !=
            ($val = preg_replace('/'.$pattern.'/iS', '', $string))
    ) {
        $string = $val;
    }
    return $string;
}

// Aufruf
$string = "<p><p><b><strong>    <p></p><p />  </strong></b></p></p>";
$string = "<div>"{$string}"</div>";
$tags = array('p', 'strong', 'b');
echo remove_empty_tags($string, $tags)."\n";

Im einzelnen:

theHacker schrieb:
Ah, ok, Denkfehler.Leere XML-Tags entfernen: und <div/> sind auch leere Tags.

Habe Pattern entsprechend erweitert.

klamm schrieb:
Edit: Mach noch /i rein ... damit <tag> und <TAG> funzt.

erledigt.

klamm schrieb:
Edit: Könnte man das if(preg_match) -> preg_replace nicht vereinen?
Billige Idee für "do_solange_wie_preg_replace_was_macht"

PHP:

do{ $string_old = $string; $string = preg_replace( '/'.$p_o_tag.$p_empty.$p_cl_tag.'/', '', $string ); } while($string_old!=$string);

Ja, das geht mit der Ausnutzung des Returnwerts des Zuweisungsoperators. Eingebaut bzw. umgebaut.

theHacker schrieb:
PHP:

$p_o_tag = '<('.implode('|', $tags).')([^\/])*>';

So müsste es einfach sein und dasselbe tun, wenn ich das richtig sehe
Erst spitze Klammer öffnen, danach den Tag, danach, alles außer Slash, bis zur spitzen Klammer-zu.

~~Habe ich vereinfacht. Klammern braucht man dann aber nicht mehr um das [^\/]*.~~ Nein, das tut es nicht. Das \s ist sehr wohl essentiell.

Sebmaster schrieb:
Ist der Regex dann nicht greedy?

~~Im Prinzip stolpert er über seine Gier, aber ich habe aus dem [^\/]* ein [^\/>]* gemacht, um sicher zu gehen.~~

tleilax schrieb:
Dem RegExp kann auf jeden Fall der Modifier S nicht schaden.

Modifier hinzugefügt.

tleilax schrieb:
Und als weitere Optimierung würde ich beim preg_match() die Treffer in einer Variable speichern, um sie im weiteren Schritt mittels str_replace() zu ersetzen.

Entfällt. Durch das Wegfallen von preg_match() erübrigt sich das.

tleilax schrieb:
[edit]

Achja, $p_empty muss ja nicht weiter verarbeitet werden, also kann man da auch das Capturen weglassen:

PHP:

$p_empty = '(?: |\x00|\xa0|\s)*';

Analog die zweite Capturegroup bei $p_o_tag:

PHP:

$p_o_tag = '<('.implode('|', $tags).')(?:\s.*[^\/])?>';

Alle nicht weiterverarbeitete Subpatterns sind mit ?: versehen worden.

Sebmaster · 6 November 2009

B2T schrieb:
Im Prinzip stolpert er über seine Gier, aber ich habe aus dem [^\/]* ein [^\/>]* gemacht, um sicher zu gehen.

Aja, das hab ich mich überhaupt gefragt. Angenommen ich hab innerhalb eines Attributs jetzt ein / oder >, dann bricht er ja auch ab :think:

Da müsstest du prüfen, ob das nur das allerletzte Zeichen vor > ist. :-?

B2T · 7 November 2009

Sebmaster schrieb:
Angenommen ich hab innerhalb eines Attributs jetzt ein / oder >, dann bricht er ja auch ab
Da müsstest du prüfen, ob das nur das allerletzte Zeichen vor > ist.

Das > ist innerhalb eines Attributs nach XML-Standard nicht erlaubt, es muss > verwendet werden. Das mit dem / ist allerdings richtig bemerkt. Also kehre ich doch zu etwas mehr in Richtung meiner Version zurück. Ich editiere die neue Version oben hinein. <-- Erledigt.

PHP remove_empty_tags

Chef

sieht vor lauter Ads den Content nicht mehr

Chef

sieht vor lauter Ads den Content nicht mehr

Chef

sieht vor lauter Ads den Content nicht mehr

Chef

Chef

Noch da? Ich auch!

Chef

sieht vor lauter Ads den Content nicht mehr

Chef

sieht vor lauter Ads den Content nicht mehr

null != null

sieht vor lauter Ads den Content nicht mehr

Chef

be forever curious

Noch da? Ich auch!

null != null

Noch da? Ich auch!