Как удалить спецсимволы из HTML строки?

Question

HttpUtility.HtmlDecode() почему-то превращает входную строку в вопросики (скорее всего, проблема в кодировке). WebUtility.HtmlDecode() не убирает символы &gt,&lt и т. д.

Есть ли универсальный способ очистить от этих "паразитов" строку?

Покажите код и пример строки, которая не проходит — , Nov 28 '15 at 11:05
скорее всего, проблема в кодировке. — Darth, Nov 28 '15 at 12:02

score 1 · Accepted Answer · edited May 23 '17 at 12:39

И HttpUtility.HtmlDecode, и WebUtility.HtmlDecode совершенно корректно обрабатывают и любые символы, и HTTP escape-последовательности:

Console.WriteLine(WebUtility.HtmlDecode("&lt;b&gt;пони&lt;/b&gt;"));
Console.WriteLine(HttpUtility.HtmlDecode("&lt;b&gt;правят миром&lt;/b&gt;"));

Вывод:

<b>пони</b>
<b>правят миром</b>

С функциональной точки зрения эти методы эквивалентны, они отличаются только сборками и версиями .NET.

Если у вас "вопросики", то, вероятно, строка изначально в неверной кодировке. Убедитесь, что после получения строки её содержимо нормально отображается.

Если же вас интересуют именно последовательности &gtи &lt, то они некорректные, так как не оканчиваются точкой с запятой. При каких-то условиях некорректные последовательности могут всё равно обрабатываться парсерами HTML, будто они корректные. Чтобы получить подобное поведение, воспользуйтесь полноценными парсерами HTML.

Строки с "паразитными lt и gt" и "вопросиками" обычно не появляются просто так. Скорее всего, вы выковыряли их из HTML файла каким-то топорным способом, например, регулярками, а потом пытаетесь получить нормальный текст. Настоятельно рекомендую пользоваться полноценными парсерами, потому что они не только решат ваши проблемы с "мусорными символами", то и значительно упростят извлечение информации из HTML файлов.

@Radzhab654654 Пройдите по ссылке в ответе, там список парсеров HTML. CsQuery, HAP и AngleSharp умеют извлекать текст без тегов. — Kyubey, Nov 28 '15 at 11:17

Как удалить спецсимволы из HTML строки?

1 Answers1

Linked