Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.

Lublu_avto

Проверка сайтов

Рекомендуемые сообщения

Подскажите. Ситуация следующая. Есть список сайтов site.txt около 500 штук. Где то половина из них уже не действует. Как проверить доступность и выбрать только доступные предположим в файл site1.txt

 

Спасибо.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

дописать в начале каждого сайта ping и сделать батником

а нет. не всё так просто

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

А что ping ? Это не проверка.

Надо скрипт замутить, чтобы wget'ом скачивал сайт, он только index.html будет загружать,

и по результатам этой загрузки уже можно судить о "живости" данного сайта.

 

То есть, если сказать wget ya.ru, то в текущую папку падает index.html,

или НЕ падает, по этому и судить.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

В идеале под виндой, но есть у коллеги машина под Linux. Так что в принципе без разницы.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

скрипт на баше

 

#!/bin/bash
infile=$1
oufile=$2
rm -rf $oufile
while read line; do
rm -rf index.html
wget $line -T 2 -t 2
if [ -f index.html ]
then
echo $line >> $oufile
fi
done < $infile
rm -rf index.html

 

Сам скрипт записать в файл, дать ему аттрибут запускаемого с помощью chmod a+x

Запускать: скрипт файл1 файл2

Где файл1 - файл со списком сайтов, файл2 - выходной файл со списком работающих сайтов.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Не нужно ни чего мутить. Всё уже  давно замучено)

С первой страницы поиска по запросу из вашего сообщения: http://pr-cy.ru/mass_domain

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

На python можно написать и кроссплатформенный скрипт при помощи urllib

По сути нужно просто с каждого сайта получить ответ на стстус страницы.

 

Быстрое гугление находит простое решение: http://aderkin.ru/posts/162

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты