Итак. База получена путем парсинга 180 000 000 сообществ ВК. На момент парсинга (начало января 2019) это все сообщества ВК созданные за все время существования соцсети...
После удаления всех забаненнных и удаленных сообществ, а так же тех сообществ у которых количество участников меньше 100 человек, осталась база со следующими характеристиками:
Характеристики базы:
Всего сообществ в базе = 8 742 646
Сообществ с кол-вом участников от 10 тыс.= 164 577
Сообществ с кол-вом участников от 50 тыс.= 32 206
Сообществ с кол-вом участников от 100 тыс.= 17 259
Сообществ с кол-вом участников от 500 тыс. = 3 257
Сообществ с кол-вом участников от 1 млн. = 1 348
Сообществ с кол-вом участников от 3 млн. = 177
Сообществ с кол-вом участников от 5 млн. = 44
Сообществ типа "группа" = 5 654 808
Сообществ типа "паблик" = 1 996 093
Сообществ типа "мероприятие/встреча" = 1 091 745
Верифицированных сообществ: 3 738
Сообщества отмеченные "огоньком": 298
Групп с открытой стеной = 3 822 464
Групп в видеозаписи кот. можно закачать видео: 1 913 128
Сообществ которым можно отправить сообщение: 2 363 079
Закрытых групп = 549 300
P.S Возможно у некоторых возник вопрос о том, почему здесь нет информации о возможности комментирования. Дело в том, что возможность комментирования НЕ является свойством сообщества (в отличие от, например, возможности делать пост на стене или закачивать видеозаписи). Возможность комментировать - это свойство стены и каждой записи на стене в отдельности. Я же парсю только сами сообщества (не касаясь стен/записей являющихся отдельной сущностью), поэтому информации о возможности комментирования здесь нет!
Размер базы
Размер дампа полной базы: 9 Gb ( 3 Gb в архиве ) - содержит все данные о сообществах
Размер дампа облегченной базы: 980 Mb ( 294 Mb в архиве) - содержит только наиболее часто используемые данные
P.S Всем покупателям будут доступны обе версии (полная и облегченная)
Формат базы
Все данные хранятся в БД MySQL. Соответственно все покупатели получают от меня дамп таблицы MySQL. Я понимаю что многим привычнее Excel, но такое количество данных эксель просто не потянет.
Полная версия базы содержит следующие столбцы
id - id сообщества
screen_name - короткое имя сообщества
name - название сообщества
description - описание сообщества
type - тип сообщества ( может иметь значения group, page или event )
is_closed - открыто или закрыто сообщество ( 1 - закрыто, 0 - открыто )
members_count - количество участников
can_post - можно ли сделать пост на стену ( 1 - можно, 0 - нельзя )
can_upload_video - можно ли добавить видео в видеозаписи ( 1 - можно, 0 - нельзя )
can_message - можно ли отправить сообщение сообществу ( 1 - можно, 0 - нельзя )
verified - верифицировано ли сообщество ( 1 - да, 0 - нет )
trending - отмечено ли сообщество "огоньком" ( 1 - да, 0 - нет )
site - сайт сообщества
has_photo - установлено ли фото в сообществе ( 1 - да, 0 - нет )
wall - стена ( 0 - выключена, 1 - открытая, 2 - ограниченная, 3 - закрытая )
status - статус
main_album_id - id основного альбома
main_section - главная секция ( 0 - отсутствует, 1 - фотографии, 2 - обсуждения, 3 - аудио, 4 - видео, 5 - товары)
country_id - id страны
country_name - название страны
city_id - id города
city_name - название города
age_limit - возрастные ограничения ( 1 - нет, 2 - 16+, 3 - 18+ )
public_start_date - дата основания паблика в формате YYYYMMDD
event_start_date - дата начала встречи в формате unixtime
event_finish_date - дата окончания встречи в формате unixtime
photo_50 - мелкое фото
photo_100 - среднее фото
photo_200 - крупное фото
Облегченная версия базы содержит следующие столбцы:
id - id сообщества
name - название сообщества
type - тип сообщества ( может иметь значения group, page или event )
is_closed - открыто или закрыто сообщество ( 1 - закрыто, 0 - открыто )
members_count - количество участников
can_post - можно ли сделать пост на стену ( 1 - можно, 0 - нельзя )
can_upload_video - можно ли добавить видео в видеозаписи ( 1 - можно, 0 - нельзя )
can_message - можно ли отправить сообщение сообществу ( 1 - можно, 0 - нельзя )
verified - верифицировано ли сообщество ( 1 - да, 0 - нет )
trending - отмечено ли сообщество "огоньком" ( 1 - да, 0 - нет )
country_id - id страны
country_name - название страны
city_id - id города
city_name - название города
Как видите отсюда выкинуты все данные, которые редко нужны большинству пользователей. Оставлено только все самое необходимое для подбора сообществ.
Кому может пригодиться данная база
- спамерам, тем кто делает посевы видео и тп
- рекламщикам
- пиарщикам
- аналитикам
- smm-сервисам и smm-специалистам
Я никогда не имел дел с MySQL, смогу ли я разобраться?
Для тех кто совсем далек от работы с БД MySQL я сделал подробный мануал в котором рассказано:
- как поставить пакет программ OpenServer ( MySQL туда уже включен )
- как импортировать полученный дамп в БД (через консоль)
- как подключиться к БД с помощью программы HeidiSQL (так же входит в OpenServer) и сделать нужную выборку сообществ из базы.
- как экспортировать результаты выборки в Excel
В общем дам минимальный необходимый набор информации для того что бы вы могли работать с полученной базой (делать выборки по критериям).
Стоимость базы сообществ ВК
1500 руб.
Контакты
Email: [email protected]
Skype: profitbunker ( имя в скайпе webguru )
Telegram: @profitbunker