/// <summary>
/// 去除HTML标记
/// </summary>
/// <param name=\"strHtml\">包括HTML的源码 </param>
/// <returns>已经去除后的文字</returns>
public static string StripHTML(string strHtml)
{
string [] aryReg ={
@\"<script[^>]*?>.*?</script>\",
@\"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([\"\"\\\'])(//[\"\"\\\'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>\",
@\"([/r/n])[/s]+\",
@\"&(quot|#34);\",
@\"&(amp|#38);\",
@\"&(lt|#60);\",
@\"&(gt|#62);\",
@\"&(nbsp|#160);\",
@\"&(iexcl|#161);\",
@\"&(cent|#162);\",
@\"&(pound|#163);\",
@\"&(copy|#169);\",
@\"&#(/d+);\",
@\"-->\",
@\"<!--.*/n\"
};
string [] aryRep = {
\"\",
\"\",
\"\",
\"/\"\",
\"&\",
\"<\",
\">\",
\" \",
\"/xa1\",//chr(161),
\"/xa2\",//chr(162),
\"/xa3\",//chr(163),
\"/xa9\",//chr(169),
\"\",
\"/r/n\",
\"\"
};
string newReg =aryReg[0];
string strOutput=strHtml;
for(int i = 0;i<aryReg.Length;i++)
{
Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
strOutput = regex.Replace(strOutput,aryRep[i]);
}
strOutput.Replace(\"<\",\"\");
strOutput.Replace(\">\",\"\");
strOutput.Replace(\"/r/n\",\"\");
return strOutput;
}
返回类别: 教程
上一教程: .NET中的GAC
下一教程: ADO.NET对象的构造(7)_OleDbParameter(中)
您可以阅读与"提取HTML代码中文字的C#函数"相关的教程:
· 在.net中实现与ASP完全兼容的MD5算法(包括中文字符)
· 在.NET下编写中文代码程序
· 在设计期跟踪代码 (.NET)
· 面向过程的.NET(一工作代码)
· C/C++中利用空指针简化代码,提高效率