Какие старые сайты вы хотели бы восстановить?

Vitaly · Post by **Vitaly** » Mon Aug 25, 2025 1:58 pm

Ewo wrote: Mon Aug 25, 2025 9:24 am Я в поиске нормальной сохранялки сайтов, пробую WinHTTrack, JDownloader2, Cyotek WebCopy

Все эти качалки сайтов ничего не будут качать из веб-архива. Он защищен от скачиваний. Может есть какие-то платные проги, я не знаю.

Нет, всё делается не так, расскажу как я натягал тысячи страниц уник. контента, с заброшенных сайтов. А потом сделал классный зарабатывающий сайт.

1. Открываешь страницы в веб-архиве, по дной. Быстро копируешь его исходные коды, вставляешь в полу-визуальный радактор. Никак файлы не называешь, а именуешь цифрами (1, 2, 3 ...457 и index). Складываешь в папку, назовем ее "file". В папке должно быть не более 500 файлов.

2. Теперь пакетно нужно почистить HTML-коды от мусора, коего там великое множество. Пробовал Notepad++, но никак не смог подобрать нужные мне регулярные выражения.
Получалось чистить код php-скриптами, на Денвере.
Все вычищаешь сверху до тега <title>. Снизу ищешь за что зацепиться, сразу после текста (что-то одинаковое во всех файлах). Вычищаешь все от тега </body> до этого "одинакового".
Между тегами </body> и </html> тоже все вычищаешь, т.к. этот идиотский веб-архив умудряется и здесь накакать.

4. Маленькой утилитой @Text Replacer вставляешь разметку до тега <title>:

Code: Select all

<!DOCTYPE html>
<html lang="ru-RU">
<head>
<meta charset="UTF-8">

и после того за что мы зацепились снизу:

Code: Select all

</body>
</html>

Recoder.exe перекодируем файлы в UTF-8.

5. Теперь создаем "счёт". Раз у нас файлы в папке "file", счёт будет иметь такой вид: site/file/index.html, site/file/1.html, site/file/2.html.... site/file/457.html

6. Все той же утилитой @Text Replacer вставляем этот "счёт" перед тегом </body>. Загружаем нашу папку file на хостинг.

7. Идем на сервис xml-sitemaps.com, который бесплатно сканирует только 500 веб-страниц, запускаем адрес нашей папки. Скачиваем zip-архив. Sitemap.html переименовываем в index.html, а sitemap.xml так и останется, что полезно для поисковиков.

8. Все той же утилитой @Text Replacer вставляем разные дополнительные записи, натягиваем дизайн и т.д. Ну еще нужно убрать множество ссылок со страниц, оставить одну на главную, а на главной все эти ссылки оставить.

Из всей этой моей длинной писанины самое тяжелое выполнить п. 1. Я месяцами сидел над этим.
А п.п. 2 - 8 выполняются без напряга, даже как-то играючись.

Post by **mak** » Mon Aug 25, 2025 2:25 pm

Vitaly wrote: Mon Aug 25, 2025 1:58 pm Все эти качалки сайтов ничего не будут качать из веб-архива. Он защищен от скачиваний. Может есть какие-то платные проги, я не знаю.

У меня нормально всё скачивается при помощи https://github.com/hartator/wayback-machine-downloader (или какого-то из его форков, точно не помню уже, давно установил, так и работает).

Но под Windows почему-то не заработал, только под Linux.

Форум Народ

Какие старые сайты вы хотели бы восстановить?

Re: Какие старые сайты вы хотели бы восстановить?

Re: Какие старые сайты вы хотели бы восстановить?