Чтение содержимого сайта

Question

Есть небольшая задачка. Написать программу для чтения содержимого сайта. И дальнейшей записи этого в файл. Но желательно очистить текст от лишнего мусора.

Вот как я просто читаю всё содержимое:

string data = "Time = 12:00am temperature = 50";
var Client = new System.Net.WebClient();
Client.Credentials = System.Net.CredentialCache.DefaultCredentials;
Client.Proxy.Credentials = System.Net.CredentialCache.DefaultCredentials;
string text = Client.UploadString("", data);
int startIndex = text.IndexOf("<h1");
int length = text.IndexOf("Спасибо за внимание!") - startIndex;
text = text.Substring(startIndex, length);
string[] splitString = new string[] {"<p>", "</p>", "<u>", "</u>", "<i>", "</i>", "<strong>", "</strong>", "<h2>", "</h2>", "<h3>", "</h3>"};
string[] clearText = text.Split(splitString, StringSplitOptions.None);

Прокси, на случай если сайт не даст дёрнуть свои данные без авторизации. Так вот какие параметры для вытаскивания информации. Начиная с открытия тега h1 и заканчивая введённым словом/фразой, которую в консольке введёт пользователь. И всё что я вытащу, мне нужно очистить от специальных символов. То есть оставить только текст. Кто нибудь может подсказать как это можно сделать?

Как считать от открытия тега h1 до введённого слова/фразы.
Как очистить текст от кода html? Так же появилась 3 проблема. Бывает сползает кодировка. Пытаюсь поправить вот так вот:

Client.Encoding = System.Text.Encoding.UTF8; Не помогает. Подскажите пожалуйста что сделать ещё и с этим.

Я правильно понимаю, что вы согласны на потерю форматирования и хотите сохранять plain text? А кроме того, вы согласны, что все служебные div'ы в шапках, боковых панелях (весь дизайн, короче) останется и может поехать? Или вы хотите ещё как-то научиться определять дизайн и отсекать его, оставляя вид как в "режиме для чтения"? — A K, Sep 18 '17 at 11:24
https://ru.stackoverflow.com/questions/420354/%D0%9A%D0%B0%D0%BA-%D1%80%D0%B0%D1%81%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D1%82%D1%8C-html-%D0%B2-net — , Sep 18 '17 at 11:34
@AK нет мне нужен просто текст. И я уже вроде как нашёл решение моих проблем но до конца не уверен. Заменил DownloadString на UploadString и пошло в нормальной кодировке. Разбил текст спилтом. Вообщем мой новый код в тексте вопроса. — Андрей, Sep 18 '17 at 11:37
По моему добился результата. Сейчас наверное вопрос только в том правильно ли всмё у меня? и могут ли возникнуть какие нибудь ошибки? — Андрей, Sep 18 '17 at 11:40
Могут. Тегов гораздо больше, чем указанных. Вы хотите постоянно дописывать возможные теги? — A K, Sep 18 '17 at 11:55
@AK а ещё такой вопрос, как сделать что бы то что я ввожу в int startIndex = text.IndexOf(start); было не чувствительно к регистру? Потому что если в тексте сайта это указано всё с больших букв то я должен вводить так же. Как то можно от этого избавиться? — Андрей, Sep 18 '17 at 12:19
@AK а то что описано в парсере в вашем примере подойдёт для любого сайта? И ещё как подключить IDocument? Не нашёл что то как он подключается к проекту. — Андрей, Sep 18 '17 at 12:34
Чтобы было не чувствительно к регистру "ABCD".IndexOf("c", StringComparison.InvariantCultureIgnoreCase) — tym32167, Sep 18 '17 at 12:34
Вопросы по ответу лучше спрашивать под ответом — tym32167, Sep 18 '17 at 12:34

score 2 · Accepted Answer · edited Sep 12 '19 at 07:19

2

Ваше решение плохо несколькими моментами:

Вы используете прямую работу со строками, а не специализированные парсеры html
Вы захардкодили список тегов. Их больше, вы постоянно будете их дописывать, они будут постоянно ломаться и вам придётся перекачивать сайт. Код хрупкий.
Тег типа <p> вы вырежете, хорошо. А <p class="asdf" style="color:red;padding: 0 10px;"> уже нет. А внутри может быть очень много вариантов -- и вы придёте к регуляркам, сложным и плохо отлаживаемым.

Возьмите например, AngleSharp.

Он умеет скачивать сайты:

private static IDocument GetPage(Url url)
{
    var config = Configuration.Default.WithDefaultLoader();
    var document = BrowsingContext.New(config).OpenAsync(url).Result;
    if (document.StatusCode != HttpStatusCode.OK)
        throw new Exception($"Bad document status: {document.StatusCode}");
    return document;
}

Он умеет парсить html, для вашего случая:

    var parser = new HtmlParser();
    var document = parser.Parse(@"<html>
    <head>
            <script type='text/javascript' src='/facelift/js/jquery-1.4.4.min.js'></script>
    </head>
    <body>
        <script type='javascript'>
            document.write('<span class=greeting>Hello World!</span>');
        </script>   
        <div class='top_menu'>
            <ul>
                <a href='#'>link1</a>
                <a href='#'>link2</a>
                <a href='#'>link3</a>
            </ul>
        </div>

<div class='product'>

    <a href='/url1.html'><img src='img1.jpg' alt=''></a>
    Hello, world
    <div class='comments-likes'>1</div>
    <table id='menutable'>
        <tr>
            <td>Head1</td>
            <td>Head2</td>
        </tr>
        <tr>
            <td class='bla ble'>31</td>
            <td>content</td>
        </tr>
        <tr>
            <td class='bla ble'>32</td>
            <td>content</td>
        </tr>
    </table>
</div>
<div class='footer'>
    <a href='http://www.ya.ru/q=asdf'>
</div>
</body></html>");

    // Remove scripts
    var scripts = document.QuerySelectorAll("script");
    foreach (var script in scripts)
    {
        script.Remove();
    }

    // Remove menu
    document.QuerySelector("div.top_menu").Remove();

    var text = document.QuerySelector("body").TextContent;
    Console.WriteLine(text);

Вывод:

Поэтому как я вижу решение вашей задачи: распарсить сайт html-парсером и получить TextContext для документа.

PS Да, это подойдёт для любого сайта.

Ставить AngleSharp проще всего через менеджер пакетов: правый клик на солюшене - Manane Nuget packages for solution. Тогда и все неймспейсы подтянутся.

edited Sep 12 '19 at 07:19

srvr4vr

3,486

answered Sep 18 '17 at 12:02

A K

28,718

AK, спасибо, хороший html parser но не очистил от javascript кода. Через чего нужно ещё пропустить что бы javascript пропал? – Андрей Sep 20 '17 at 12:18
И ещё желательно как нибудь убрать здоровенные пробелы строк между текстом. И меню сайта. Он ведь их тоже собирает. Если это как нибудь возможно. – Андрей Sep 20 '17 at 12:21
@Андрей Ага, кажется до вас начинает доходить то, о чём я спрашивал. ))) Если вы хотите один конкретный сайт парсить -- то вообще без проблем: находите нужные элементы в DOM и удаляете, а потом уже оставшееся сохраняете через .TextContent(). В общем случае как написать универсальный парсер для произвольного сайта, который определяет что нужно вырезать -- задача по написанию интеллектуального интеллекта. – A K Sep 20 '17 at 16:31
Вот тут на en-so я как-то спрашивал, как удалять узлы из дерева, можете посмотреть примеры - на узлы в вопросе, на безымянные текстовые блоки в ответе. Нашёл узел -- грохнул через .Remove() – A K Sep 20 '17 at 16:40
@Андрей дополнил ответ примером на вырезание скриптов и элементов меню. – A K Sep 20 '17 at 16:51
AK, благодарю, попробую. Да для одного конкретного сайта. Так что постараюсь подогнать. Если вы не против я пока что не буду принимать ответ, что бы мог если что вас спросить о чём то. Как доделаю приму тогда. Если вы не против. – Андрей Sep 21 '17 at 05:59
AK, пока что попробовал только очистку от скриптов, javascript код всё равно остался. Не знаю почему. Буду разбираться потихоньку. Если что то можете подсказать, буду благодарен. – Андрей Sep 21 '17 at 06:34

Если что , собираю текст сайта не с помощью примочек anglesharp, так как требуется использование прокси. Не знаю как это делается через anglesharp так что вот как собираю `string data = "Time = 12:00am temperature = 50";

        var Client = new System.Net.WebClient();
        Client.Credentials = System.Net.CredentialCache.DefaultCredentials;
        Client.Proxy.Credentials = System.Net.CredentialCache.DefaultCredentials;

        string text = Client.UploadString(textBox1.Text, data);` Возможно из за этого javascript остался. Но точно не уверен.

– Андрей Sep 21 '17 at 06:35

AK, поглядел в отладке. В объекте document, в scripts-> inner html пусто во всех 13 элементах что он нашёл. Возможно из за этого ещё. Но не знаю почему он находит элементы скрипта а они пустые. Странно как то. Возможно как раз из за того как я считываю сайт, а может и нет. – Андрей Sep 21 '17 at 06:38
AK всё от скриптов очистил, разобрался как, осталось огромные пробелы поубирать между текстом и лишний текст типо комментариев и менюшек сайта. Не подскажите как это можно сделать? И то и то желательно ну или хоть что то одно может подскажите) – Андрей Sep 21 '17 at 06:59
AK, пытаюсь убрать менюшки, там наверное нет такого тега как вы показали, div.top_menu, наверное нужно лезть в сайт и смотреть в каких конкретно тегах у меня менюшки находятся? – Андрей Sep 21 '17 at 07:18
`
Главное

Новое

Лучшее

Новости

Темочки

Картинки
`
– Андрей Sep 21 '17 at 07:24
Ak, это пример того что мне нужно убрать? как правильно тег подсунуть в квери селектор? попробовал div.mainbody, так не работает. Не подскажите что не так? – Андрей Sep 21 '17 at 07:25
И самое интересное что без remove() всё проходит. Он находит элемент а при попытки удалить вот что выдаёт System.NullReferenceException: 'Ссылка на объект не указывает на экземпляр объекта.' – Андрей Sep 21 '17 at 07:30
А ну потому что он null возвращает, странно что он не находит нечего. – Андрей Sep 21 '17 at 07:43
@Андрей А вам не кажется, что пора задавать новый, отдельный вопрос уже по деталям AngleSharp? На ваш первоначальный я ответил, потом дописывал как ставить его, про то, как удалять скрипты... а вы всё спрашиваете и спрашиваете в комментариях, вон, система уже предлагает в чат перенести. Кроме того, код в комментариях всегда имеет ужасное форматирование, не пишите крупные куски в комментариях. – A K Sep 21 '17 at 09:36
AK, извините. Забыл принять, я уже всё очистил и разобрался) Спасибо за помощь. – Андрей Sep 21 '17 at 09:40

Чтение содержимого сайта

1 Answers1

Linked