Feedback

C# - HTML aus einem String entfernen

Veröffentlicht von am 21.01.2007
(2 Bewertungen)
Entfernt HTML Code aus einem String
GFU-Schulungen  [Anzeige]

XML und .NET Überblick

Um auf dem neuesten Wissensstand zu sein, sollten Sie unser aktuelles ASP .NET Komplett Seminar belegen.
Nach dem Seminar kennen Sie die wichtigsten Strömungen in der Software-Technologie

JavaScript für .NET-Entwickler

Sie sind .NET-Entwickler und nun stehen Sie vor der Aufgabe, JavaScript in Ihre Arbeit einzubinden. Die Schulung vermittelt Ihnen die JavaScript Grundlagen und die Funktionen der Scriptsprache. Sie wissen, wie objektorientierte Programmierung in JavaScript funktioniert und lernen abschließend Best Practicies Fälle kennen.

/// <summary>
/// Removes the HTML Code.
/// </summary>
/// <param name="Text">The text.</param>
/// <returns>The string without HTML Code</returns>
private string StripHTML(string inputString)
{           
    return Regex.Replace(inputString, "<.*?>", string.Empty);
}
Abgelegt unter Regex, HTML, String.

3 Kommentare zum Snippet

Robert Dettmann schrieb am 04.02.2007:
Hm, ja vielleicht, aber: http://aspn.activestate.com/ASPN/Cookbook/Rx/Recipe/66459
dariusarnold schrieb am 12.02.2013:
Nach welchem Muster ist der zweite Paramter angegeben?? Ist '.*?' der einfach der Gesammte Platzhalter?
Koopakiller schrieb am 13.02.2013:
@Darius: Der Punkt steht für ein beliebiges Zeichen (aber normalerweise kein Zeilenumbruch). Das Sternchen steht für 0 bis unendlich vorkommen von <em>'.'</em> Das Fragezeichen wiederrum sorgt dafür, das das <em>'>'</em> Zeichen als Tag-Ende betrachtet wird.

Ich würde es allerdings anders machen: <em><[^<]+("[^"]*"[^<]*)*></em>
Wobei dieser Regex sicherlich auch nicht perfekt ist. Ich beachte aber noch, das <em>'<'</em> und <em>'>'</em> in Anführungszeichen normalerweise nicht als Taganfang bzw. Tagende betrachtet werden. Das mag zwar nicht normkonform sein, aber es gibt leider solchen Code.
Beispiel: <em>< img src="#" alt="<Alternativtext>" /></em>
Andererseits sollte man <em>'<'</em> und <em>'>'</em> vielleicht doch besser als <em>"& lt;"</em> und <em>"& gt;"</em> schreiben, wobei das sicherlich nicht jeder Webprogrammierer macht.
 

Logge dich ein, um hier zu kommentieren!