Есть небольшая задачка. Написать программу для чтения содержимого сайта. И дальнейшей записи этого в файл. Но желательно очистить текст от лишнего мусора.
Вот как я просто читаю всё содержимое:
string data = "Time = 12:00am temperature = 50";
var Client = new System.Net.WebClient();
Client.Credentials = System.Net.CredentialCache.DefaultCredentials;
Client.Proxy.Credentials = System.Net.CredentialCache.DefaultCredentials;
string text = Client.UploadString("", data);
int startIndex = text.IndexOf("<h1");
int length = text.IndexOf("Спасибо за внимание!") - startIndex;
text = text.Substring(startIndex, length);
string[] splitString = new string[] {"<p>", "</p>", "<u>", "</u>", "<i>", "</i>", "<strong>", "</strong>", "<h2>", "</h2>", "<h3>", "</h3>"};
string[] clearText = text.Split(splitString, StringSplitOptions.None);
Прокси, на случай если сайт не даст дёрнуть свои данные без авторизации. Так вот какие параметры для вытаскивания информации. Начиная с открытия тега h1 и заканчивая введённым словом/фразой, которую в консольке введёт пользователь. И всё что я вытащу, мне нужно очистить от специальных символов. То есть оставить только текст. Кто нибудь может подсказать как это можно сделать?
- Как считать от открытия тега h1 до введённого слова/фразы.
Как очистить текст от кода html? Так же появилась 3 проблема. Бывает сползает кодировка. Пытаюсь поправить вот так вот:
Client.Encoding = System.Text.Encoding.UTF8; Не помогает. Подскажите пожалуйста что сделать ещё и с этим.

int startIndex = text.IndexOf(start);было не чувствительно к регистру? Потому что если в тексте сайта это указано всё с больших букв то я должен вводить так же. Как то можно от этого избавиться? – Андрей Sep 18 '17 at 12:19"ABCD".IndexOf("c", StringComparison.InvariantCultureIgnoreCase)– tym32167 Sep 18 '17 at 12:34