Все эти качалки сайтов ничего не будут качать из веб-архива. Он защищен от скачиваний. Может есть какие-то платные проги, я не знаю.Ewo wrote: Mon Aug 25, 2025 9:24 am Я в поиске нормальной сохранялки сайтов, пробую WinHTTrack, JDownloader2, Cyotek WebCopy
Нет, всё делается не так, расскажу как я натягал тысячи страниц уник. контента, с заброшенных сайтов. А потом сделал классный зарабатывающий сайт.
1. Открываешь страницы в веб-архиве, по дной. Быстро копируешь его исходные коды, вставляешь в полу-визуальный радактор. Никак файлы не называешь, а именуешь цифрами (1, 2, 3 ...457 и index). Складываешь в папку, назовем ее "file". В папке должно быть не более 500 файлов.
2. Теперь пакетно нужно почистить HTML-коды от мусора, коего там великое множество. Пробовал Notepad++, но никак не смог подобрать нужные мне регулярные выражения.
Получалось чистить код php-скриптами, на Денвере.
Все вычищаешь сверху до тега <title>. Снизу ищешь за что зацепиться, сразу после текста (что-то одинаковое во всех файлах). Вычищаешь все от тега </body> до этого "одинакового".
Между тегами </body> и </html> тоже все вычищаешь, т.к. этот идиотский веб-архив умудряется и здесь накакать.
4. Маленькой утилитой @Text Replacer вставляешь разметку до тега <title>:
Code: Select all
<!DOCTYPE html>
<html lang="ru-RU">
<head>
<meta charset="UTF-8">
Code: Select all
</body>
</html>
5. Теперь создаем "счёт". Раз у нас файлы в папке "file", счёт будет иметь такой вид: site/file/index.html, site/file/1.html, site/file/2.html.... site/file/457.html
6. Все той же утилитой @Text Replacer вставляем этот "счёт" перед тегом </body>. Загружаем нашу папку file на хостинг.
7. Идем на сервис xml-sitemaps.com, который бесплатно сканирует только 500 веб-страниц, запускаем адрес нашей папки. Скачиваем zip-архив. Sitemap.html переименовываем в index.html, а sitemap.xml так и останется, что полезно для поисковиков.
8. Все той же утилитой @Text Replacer вставляем разные дополнительные записи, натягиваем дизайн и т.д. Ну еще нужно убрать множество ссылок со страниц, оставить одну на главную, а на главной все эти ссылки оставить.
Из всей этой моей длинной писанины самое тяжелое выполнить п. 1. Я месяцами сидел над этим.
А п.п. 2 - 8 выполняются без напряга, даже как-то играючись.