Отключен JavaScript

У вас отключен JavaScript. Некоторые возможности системы не будут работать. Пожалуйста, включите JavaScript для получения доступа ко всем функциям.

Скачать

Парсер (web.archive.org)

Создал: InfoSra4ka, ноя 20 2013 13:37

Авторизуйтесь для ответа в теме

Сообщений в теме: 8

#1 InfoSra4ka

Old Member

Сливапер LVL 5
Сообщений: 1 019
Регистрация: 06.10.2013
Заработано: 304 руб.

Репутация: 122

Однажды вечером, я как обычно сидел за компьютером и гуглил яндекс. Но ни на одном сайте нужной мне информации не нашлось. Я уже было отчаялся, когда мне на глаза попалась нужная ссылка, но как назло, сайт был удален, и выдернуть информацию можно было только из кэша гугла или из вебархива. И я решил написать небольшой парсер вэбархива на php.

Задача парсера заключалась в том, чтобы найти все сохраненные страницы нужного сайта, выбрать из них самые свежие и выдать ссылки на них.

Собственно для того чтобы получить все ссылки которые есть в архиве, нужно открыть страницу

$content=file_get_contents('http://web.archive.org/web/*/site.ru*');

где site.ru - искомый сайт.

Далее нужно пропарсить страницу и определить дату последнего добавления в архив каждой страницы site.ru.

preg_match_all("/(web\/query\?q([a-zA-Z0-9.&;_=%+-]){1,})\">(.*)/i",$content,$matches,PREG_SET_ORDER); //находим все ссылки у которых несколько копий в архиве
preg_match_all("/web\/([0-9]{14})(.*)\">(.*)/i",$content,$matches1,PREG_SET_ORDER); // находим ссылки у которых только одна копия
preg_match_all("/(.*)/i",$content,$last,PREG_SET_ORDER); //парсим дату последнего обновления страницы

Ссылка на страницу, которую вэбархив сканировал только один раз выглядит примерно так:http://web.archive.o...te.ru/index.phpгде 20111110094202 - дата и время сканирования (2011.11.10 09:42:02). Теперь, когда у нас есть даты последнего обновления, мы можем перевести их в требуемый формат:

function convert($str){
    $tmp=str_replace(",","",$str);
    $tmp=strtotime($tmp);
    $m=idate("m",$tmp);
    if($m<10)$m="0".$m;
    $d=idate("d",$tmp);
    if($d<10)$d="0".$d;
        $tmp=idate("Y",$tmp).$m.$d."235959";
    return $tmp;
}

Ну и наконец обрабатываем все ссылки:

foreach($matches as $m){
    $m[1]=convert($m[1]);
    echo "<a href="http://web.archive.org/web/$m/'.$m[3].'">'.$m[3]."</a><br>\r\n";
}
foreach($matches1 as $mc){
    echo "<a href=\"http://web.archive.org/web/".$mc[1].$mc[2]."\">".$mc[2]."</a><br>\r\n";
}

Скрытый контент:

Для просмотра содержимого необходимо 30 очков репутации (вам не хватает 30)

Скачать без ограничений Купить этот материал за 390 руб.

5

#2 Lenin

Сливапер LVL 4
Сообщений: 32
Регистрация: 17.11.2013
Заработано: 0 руб.

Репутация: 32

Награды: 10

Отправлено 20 Ноябрь 2013 - 23:08

Это то что мне нужно.

0

Наверх

#3 drussik

Заблокированный

Заблокированные
Сообщений: 89
Регистрация: 15.10.2013
Заработано: 0 руб.

Репутация: 24

Награды: 9

Отправлено 07 Декабрь 2013 - 15:59

чета непонял - на выходе получим тока линки на страницы требуемого сайта??

0

Наверх

#4 HunterNNm

Сливапер LVL 4
Сообщений: 52
Регистрация: 13.12.2013
Заработано: 0 руб.

Репутация: 1

Награды: 10

Отправлено 17 Декабрь 2013 - 20:12

А почему не написать с использованием CURLa? Получилось бы более функционально. Если кому надо - черканите в личку, напишу безвозмездно!

0

Наверх

#5 Korsar

Новичок
Сообщений: 8
Регистрация: 16.01.2014
Заработано: 0 руб.

Репутация: 1

Награды: 10

Отправлено 17 Январь 2014 - 10:36

Спасибо большое! Уже 100 лет ищу рабочий парсер вебархива. Получилось очень круто, но может ли кто-то еще помочь с кодом следующей итерации парсера:

1. Полученный список страниц необходимо скачать и сохранить на комп в виде архива. При этом так, чтобы получился в итоге простой рабочий .html сайт.

2. При этом в списке полученных ссылок есть ссылки на страницы, которых на самом деле нет в вебархиве: "Wayback Machine doesn't have that page archived." Можно ли каким-то образом чистить такие ссылки и не сохранять их в итоговый вариант?

Ну и отдельная просьба HunerNNm каким-то образом выйти на связь. Личка у вас не работает - не могу написать

Сообщение отредактировал Korsar: 17 Январь 2014 - 10:39

0

Наверх

#6 Korsar

Новичок
Сообщений: 8
Регистрация: 16.01.2014
Заработано: 0 руб.

Репутация: 1

Награды: 10

Отправлено 20 Январь 2014 - 10:35

Напишу еще раз.

Если вдруг кто-то готов доработать парсер, напишите, мне пожалуйста. Готов заплатить.

0

Наверх

#7 Medito

Сливапер LVL 1
Сообщений: 8
Регистрация: 15.10.2014
Заработано: 0 руб.

Репутация: 15

Награды: 10

Отправлено 15 Октябрь 2014 - 11:21

Напишу еще раз.

Если вдруг кто-то готов доработать парсер, напишите, мне пожалуйста. Готов заплатить.

Добрый день!

Вы смогли найти того кто доработал или это еще в планах?

0

Наверх

#8 themelock

Premium
Сообщений: 75
Регистрация: 07.12.2014
Заработано: 1 руб.

Репутация: 55

Награды: 15

Отправлено 07 Декабрь 2014 - 18:26

Скрытый контент:

Для просмотра содержимого необходимо 50 очков репутации (вам не хватает 50)

Скачать без ограничений Купить этот материал за 390 руб.

Сообщение отредактировал themelock: 07 Декабрь 2014 - 18:30

0

Наверх

#9 markalisa548

Сливапер LVL 1
Сообщений: 8
Регистрация: 02.04.2015
Заработано: 0 руб.

Репутация: 1

Награды: 10

Отправлено 08 Апрель 2015 - 10:24

Подскажите пожалуйста, этот парсер собирает ссылки на страницы в Вебархиве или чистит их и выдает чистые ссылки на страницы самого сайта, без /web.archive.org/web/20141229030558/... ?

0

Наверх

Обратно в Программы и скрипты

Название темы	Форум	Автор	Статистика	Последнее сообщение
Халява Бесплатный парсер номеров whatsapp+рассылка	Халява	vkpiar	5 Ответов 754 Просмотры:	10 Апрель 2024 - 14:10 Посл. сообщение: vkpiar
Продам Уникальный и бесплатный парсер бот в Телеграм - [Parser Pro]	Продажа	Parser_Pro	2 Ответов 539 Просмотры:	13 Январь 2024 - 20:17 Посл. сообщение: boostcurrency
Продам Бесплатный парсер бот в Телеграм [ Parser Pro ]	Продажа	Parser_Pro	4 Ответов 886 Просмотры:	04 Июль 2023 - 12:13 Посл. сообщение: Parser_Pro
Скачать [Андрей Кобец] [kobezzza.channel] Устройство компиляторов и парсеров (2022)	Курсы по программированию	НЛО	1 Ответ 721 Просмотры:	30 Декабрь 2022 - 21:49 Посл. сообщение: WMR
Нужна помощь Парсер вайбер	Флейм	setevik	0 Ответов 773 Просмотры:	12 Октябрь 2022 - 11:17 Посл. сообщение: setevik

Парсер (web.archive.org)

#1 InfoSra4ka

Награды: 32

#2 Lenin

Награды: 10

#3 drussik

Награды: 9

#4 HunterNNm

Награды: 10

#5 Korsar

Награды: 10

#6 Korsar

Награды: 10

#7 Medito

Награды: 10

#8 themelock

Награды: 15

#9 markalisa548

Награды: 10

Похожие темы

Бесплатный парсер номеров whatsapp+рассылка

Уникальный и бесплатный парсер бот в Телеграм - [Parser Pro]

Бесплатный парсер бот в Телеграм [ Parser Pro ]

[Андрей Кобец] [kobezzza.channel] Устройство компиляторов и парсеров (2022)

Парсер вайбер

Количество пользователей, читающих эту тему: 1

Парсер (web.archive.org)

#3 drussik

Похожие темы

Количество пользователей, читающих эту тему: 1

Войти

Защитный код