Feedback

C# - HTML aus einem String entfernen

Veröffentlicht von am 21.01.2007
(2 Bewertungen)
Entfernt HTML Code aus einem String
Snippet in VB übersetzen
/// <summary>
/// Removes the HTML Code.
/// </summary>
/// <param name="Text">The text.</param>
/// <returns>The string without HTML Code</returns>
private string StripHTML(string inputString)
{           
    return Regex.Replace(inputString, "<.*?>", string.Empty);
}
Abgelegt unter Regex, HTML, String.

3 Kommentare zum Snippet

Robert Dettmann schrieb am 04.02.2007:
Hm, ja vielleicht, aber: http://aspn.activestate.com/ASPN/Cookbook/Rx/Recipe/66459
dariusarnold schrieb am 12.02.2013:
Nach welchem Muster ist der zweite Paramter angegeben?? Ist '.*?' der einfach der Gesammte Platzhalter?
Koopakiller schrieb am 13.02.2013:
@Darius: Der Punkt steht für ein beliebiges Zeichen (aber normalerweise kein Zeilenumbruch). Das Sternchen steht für 0 bis unendlich vorkommen von '.' Das Fragezeichen wiederrum sorgt dafür, das das '>' Zeichen als Tag-Ende betrachtet wird.

Ich würde es allerdings anders machen: <[^<]+("[^"]*"[^<]*)*>
Wobei dieser Regex sicherlich auch nicht perfekt ist. Ich beachte aber noch, das '<' und '>' in Anführungszeichen normalerweise nicht als Taganfang bzw. Tagende betrachtet werden. Das mag zwar nicht normkonform sein, aber es gibt leider solchen Code.
Beispiel: < img src="#" alt="" />
Andererseits sollte man '<' und '>' vielleicht doch besser als "& lt;" und "& gt;" schreiben, wobei das sicherlich nicht jeder Webprogrammierer macht.
 

Logge dich ein, um hier zu kommentieren!