есть задание :
- приложение должно найти все URL-адреса (html-документы) на веб-сайте, сканируя все страницы (без использования sitemap.xml)
- приложение должно возвращать, сколько URL-адресов было найдено в sitemap.xml и сколько URL-адресов было найдено при сканировании веб-сайта.
можете подсказать что стоить изучить чтобы понять как с этим работать ?
.htmlфайлы на диске? Если да, то открывайте директорию, забирайте оттуда все файлы и далее берите из них данные любым удобным для вас способом. – EvgeniyZ Jan 31 '22 at 16:38site.com/search.php?q=***илиsite.com/forum.php?thread=***, т.к. вам нужно будет выдирать странички и ссылки с них рекурсивно - нужно будет ограничить глубину поиска. Хорошая программа-пример:Extreme Picture Finder, рекурсивно ходит и парсит странички, выдирая ссылки на изображения, настраивается глубина поиска, фильтр ссылок, и параметры контента. Попробуйте её поюзайте, загоните свои параметры поиска (или модифицируйте готовые), лучше поймёте поставленную задачу и принципы её решения. – Blackmeser Feb 01 '22 at 06:28