国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術(shù)|正則表達(dá)式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務(wù)器之家 - 編程語言 - C# - C#使用for循環(huán)移除HTML標(biāo)記

C#使用for循環(huán)移除HTML標(biāo)記

2021-12-03 15:25Jaxu C#

大家在項(xiàng)目開發(fā)階段移除文字中的html標(biāo)記最常用的方法就是使用正則表達(dá)式,但是正則表達(dá)式不能處理所有的html文檔,所以采用迭代方式會更好,下面小編給大家解答下

移除一段文字中的HTML標(biāo)記,以消除其中包含的樣式和段落等,最常用的辦法可能就是正則表達(dá)式了。但是請注意,正則表達(dá)式并不能處理所有的HTML文檔,所以有時采用一個迭代的方式會更好,如for循環(huán)。

看下面的代碼:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
using System;
using System.Text.RegularExpressions;
/// <summary>
/// Methods to remove HTML from strings.
/// </summary>
public static class HtmlRemoval
{
/// <summary>
/// Remove HTML from string with Regex.
/// </summary>
public static string StripTagsRegex(string source)
{
return Regex.Replace(source, "<.*?>", string.Empty);
}
/// <summary>
/// Compiled regular expression for performance.
/// </summary>
static Regex _htmlRegex = new Regex("<.*?>", RegexOptions.Compiled);
/// <summary>
/// Remove HTML from string with compiled Regex.
/// </summary>
public static string StripTagsRegexCompiled(string source)
{
return _htmlRegex.Replace(source, string.Empty);
}
/// <summary>
/// Remove HTML tags from string using char array.
/// </summary>
public static string StripTagsCharArray(string source)
{
char[] array = new char[source.Length];
int arrayIndex = 0;
bool inside = false;
for (int i = 0; i < source.Length; i++)
{
char let = source[i];
if (let == '<')
{
inside = true;
continue;
}
if (let == '>')
{
inside = false;
continue;
}
if (!inside)
{
array[arrayIndex] = let;
arrayIndex++;
}
}
return new string(array, 0, arrayIndex);
}
}

代碼中提供了兩種不同的方式來移除給定字符串中的HTML標(biāo)記,一個是使用正則表達(dá)式,一個是使用字符數(shù)組在for循環(huán)中進(jìn)行處理。來看一下測試的結(jié)果:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
using System;
using System.Text.RegularExpressions;
class Program
{
static void Main()
{
const string html = "<p>There was a <b>.NET</b> programmer " +
"and he stripped the <i>HTML</i> tags.</p>";
Console.WriteLine(HtmlRemoval.StripTagsRegex(html));
Console.WriteLine(HtmlRemoval.StripTagsRegexCompiled(html));
Console.WriteLine(HtmlRemoval.StripTagsCharArray(html));
}
}

  輸出結(jié)果如下:

There was a .NET programmer and he stripped the HTML tags.
There was a .NET programmer and he stripped the HTML tags.
There was a .NET programmer and he stripped the HTML tags.

  上述代碼中分別調(diào)用了HtmlRemoval類中的三個不同的方法,均返回了相同的結(jié)果,即去除了給定字符串中的HTML標(biāo)記。推薦使用第二種方法,即直接引用一個預(yù)先定義好的RegexOptions.Compiled的正則表達(dá)式對象,它比第一種方法速度更快。但是RegexOptions.Compiled有一些缺點(diǎn),在某些情況下它的啟動時間會增加數(shù)十倍。具體的內(nèi)容可以查看下面這兩篇文章:

RegexOption.Compiled
Regex Performance

  通常,正則表達(dá)式的執(zhí)行效率并不是最高的,所以HtmlRemoval類中給定了另一種方法,使用字符數(shù)組來處理字符串。測試程序提供了1000個HTML文件,每個HTML文件中有大約8000個字符,所有的文件均通過File.ReadAllText方式進(jìn)行讀取,測試結(jié)果顯示字符數(shù)組的方式執(zhí)行速度是最快的。

Performance test for HTML removal

HtmlRemoval.StripTagsRegex: 2404 ms
HtmlRemoval.StripTagsRegexCompiled: 1366 ms
HtmlRemoval.StripTagsCharArray: 287 ms [最快]

File length test for HTML removal

File length before: 8085 chars
HtmlRemoval.StripTagsRegex: 4382 chars
HtmlRemoval.StripTagsRegexCompiled: 4382 chars
HtmlRemoval.StripTagsCharArray: 4382 chars

  所以,使用字符數(shù)組來處理大批量的文件時可以節(jié)省時間。在字符數(shù)組方法中,僅僅只是將非HTML標(biāo)記的字符添加到數(shù)組緩沖區(qū),為了提高效率,它使用字符數(shù)組和一個新的字符串構(gòu)造器來接收字符數(shù)組和范圍,這個會比使用StringBuilder速度更快。

對于自關(guān)閉的HTML標(biāo)記

  在XHTML中,某些標(biāo)記并不具有獨(dú)立的關(guān)閉標(biāo)簽,如<br/>,<img/>等。上述代碼應(yīng)該能夠正確處理自關(guān)閉的HTML標(biāo)記。下面是一些支持的HTML標(biāo)記,注意,正則表達(dá)式方法可能無法正確處理無效的HTML標(biāo)記。

Supported tags

?
1
2
3
4
5
6
<img src="" />
<img src=""/>
<br />
<br/>
< div >
<!-- -->

HTML文檔中的注釋

  本文給出的代碼對移除HTML文檔注釋中的HTML標(biāo)記可能會失效。有些時候,注釋中可能會包含一些無效的HTML標(biāo)記,在處理時這些HTML標(biāo)記不會被完全移除。但是,掃描這些不正確的HTML標(biāo)記有時可能是必要的。

如何驗(yàn)證

  有許多種方法可以用來驗(yàn)證XHTML,我們可以采用和上面代碼相同的方式來進(jìn)行迭代。一個簡單的方法是對'<'和'>'進(jìn)行計(jì)數(shù),從而確定它們是否匹配,或者采用正則表達(dá)式進(jìn)行匹配。這里有一些資源介紹了這些方法:

HTML Brackets: Validation

Validate XHTML

  有許多方法都可以用來去除給定字符串中的HTML標(biāo)記,它們返回的結(jié)果也都是正確的。毫無疑問,采用字符數(shù)組進(jìn)行迭代的效率最高。

以上所述是小編給大家介紹的C#使用for循環(huán)移除HTML標(biāo)記 ,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對服務(wù)器之家網(wǎng)站的支持!

原文鏈接:http://www.cnblogs.com/jaxu/p/3682042.html

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 一a级毛片 | 高清国产一区二区三区 | 日韩在线 中文字幕 | 欧美高清一区 | 欧美成人激情 | 亚洲性视频在线 | 欧美日韩三级在线 | 欧美国产视频 | 欧美永久精品 | 狠狠干最新网址 | 亚洲午夜免费 | 亚洲激情综合 | 久久精品国产v日韩v亚洲 | 欧美激情一区二区 | 国产精品无码久久久久 | 99成人 | 欧美激情一区二区三级高清视频 | 国产精品毛片一区二区 | 青娱乐网 | 亚洲国产青草 | 日日干夜夜干 | 欧美黄色一区二区 | 亚洲视频中文字幕 | 成人伊人| 亚洲黄色激情 | 日韩免费| 久久免费福利视频 | 天天操天天射天天 | 69日影院| 亚洲精品在线视频 | 国产精品二区一区二区aⅴ污介绍 | 中文字幕亚洲一区二区va在线 | 日韩在线中文字幕 | 久在线视频 | 日韩精品成人 | 亚洲精品综合 | 成人免费网站在线 | 久久久999成人 | 一级特色黄大片 | 久久久久av69精品 | 欧美三级视频 |