ASP.NET 去除所有HTML标记的方法

本文转载自查看原文 2012-04-15 00:08 8636 C#

using System.Text.RegularExpressions

///   <summary>
  ///    去除HTML标记
  ///   </summary>
  ///   <param    name="NoHTML">包括HTML的源码   </param>
  ///   <returns>已经去除后的文字</returns>
  public   static   string    NoHTML(string    Htmlstring)
  {
  //删除脚本
   Htmlstring   =    Regex.Replace(Htmlstring,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase);
  //删除HTML
   Htmlstring   =    Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,@"([\r\n])[\s]+","",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,@"-->","",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions.IgnoreCase);

   Htmlstring   =    Regex.Replace(Htmlstring,@"&(quot|#34);","\"",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,@"&(nbsp|#160);","   ",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,@"&(iexcl|#161);","\xa1",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,@"&(cent|#162);","\xa2",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,@"&(pound|#163);","\xa3",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,@"&(copy|#169);","\xa9",RegexOptions.IgnoreCase);
   Htmlstring   =    Regex.Replace(Htmlstring,   @"&#(\d+);","",RegexOptions.IgnoreCase);

   Htmlstring.Replace("<","");
   Htmlstring.Replace(">","");
   Htmlstring.Replace("\r\n","");
   Htmlstring=HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();

  return    Htmlstring;
   }

写一个静态方法
  #region    移除HTML标签
  ///   <summary>
  ///    移除HTML标签
  ///   </summary>
  ///   <param    name="HTMLStr">HTMLStr</param>
  public   static   string      ParseTags(string    HTMLStr)
  {
  return    System.Text.RegularExpressions.Regex.Replace(HTMLStr,   "<[^>]*>",   "");
   }

  #endregion

                  #region    取出文本中的图片地址
                  ///   <summary>
                  ///    取出文本中的图片地址
                  ///   </summary>
                  ///   <param    name="HTMLStr">HTMLStr</param>
                  public   static   string    GetImgUrl(string    HTMLStr)
                  {
                          string    str   =   string.Empty;
                          string    sPattern   =   @"^<img\s+[^>]*>";
                           Regex    r   =   new    Regex(@"<img\s+[^>]*\s*src\s*=\s*([']?)(?<url>\S+)'?[^>]*>",
                                   RegexOptions.Compiled);
                           Match    m   =    r.Match(HTMLStr.ToLower());
                          if    (m.Success)
                                   str   =    m.Result("${url}");
                          return    str;
                   }

                  #endregion

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 ASP去除所有html标签 asp.net(C#)去除html格式 Asp.Net中清空所有textbox的几种方法 Asp.Net MVC 扩展 Html.ImageFor 方法详解 ASP.NET MVC5（三）：表单和HTML辅助方法【ASP.NET MVC系列】浅谈表单和HTML辅助方法 ASP.NET MVC 3 之表单和 HTML 辅助方法（摘抄） ASP.NET MVC5（三）：表单和HTML辅助方法 python 去除html标记和script标记 ASP.NET在请求中检测到包含潜在危险的数据,因为它可能包括 HTML标记或脚本