Парсинг HTML и разбор script по полочкам

Question

Если спарсил HTML код и в нём есть что подобное:

<script>"text1":"value1","text2":"value2","text3":"value3"</script>

Как вытаскивать нужные значения ?

Пользовался раньше подобным вариантом:

String Response = wc.DownloadString(ssilka);
Rate = System.Text.RegularExpressions.Regex.Match(Response, @"""text1"":([^<]+),""value1""").Groups[1].Value;

Но сейчас, встречается две одинаковые строки в одном <script></script> и регулярка вытаскивает в итоге огромную часть кода.

Как вытаскивать правильно из того что находится в <script></script> ?

@VladD когда как... Но не знаю как нужно поступать в этом случае( — Xzizz, Dec 26 '17 at 01:32
Возможный дубликат вопроса: Как распарсить HTML в .NET? — Dmitresso, Dec 26 '17 at 04:52

Dmitresso · Answer 1 · 2017-12-26T04:46:02.747

Попробуйте воспользоваться готовыми решениями. Например, есть jsoup - библиотека на Java, которая предназначена для разбора HTML-страниц, позволяя извлечь необходимые данные, используя DOM, CSS и методы в стиле jQuery. Есть порт на C#. Здесь можно ознакомиться с примерами (на Java).

Прежде чем задавать новые вопросы, настоятельно рекомендуется поискать

ru.stackoverflow.com/a/420355/203589

stackoverflow.com/a/18157325/5674802

Alias · Answer 2 · 2017-12-26T06:31:37.220

Можно просто разбить с помощью String.Split(char) и перебрать в цикле, что-то вроде

using System.Xml;
...//прочий код программы
XmlNode script;//наш xml-узел
...//парсинг до xml-узлов

string[] sriptTextValuePairs = script.InnerText.Split(',');//побьём содержимое xml-узла на множество пар-подстрок
foreach(string tvPair in sriptTextValuePairs)//перебор пар
{
  string[] pair=tvPair.Split(':');//разобьём пару
  string text=pair[0].Trim('"');//вытащим значения
  string value=pair[1].Trim('"');
  ...//делаем что-то
};

Парсинг HTML и разбор script по полочкам

2 Answers2