Как парсят данные сканеры?

Forklive · 26 Мар 2018

Задумался тут о написании собственного сканера Live вилок.
Просто - тема интересная с технической точки зрения.
Стало интересно - как парсят live данные эти сканеры?
Я покопался в коде некоторых контор - все конторы работают по разному:
кто то по аяксом присылает обновленные коэффициенты в виде JSON-а, кто то готовый HTML.
Если пытаться разобраться в JSON массивах каждой конторы - то просто охренеешь разбираться что значит конкретное поле. Ну и не все обновляют JSON-ом.
Если постоянно посылать GET запросы - то во первых твой IP очень быстро забанят, во вторых - на многих конторах контент страницы формируется уже на client side - т.е. обычный GET запрос а таких конторах не покажет тебе ничего.
...
И вот я думаю - что основным универсальным методом парсинга - является парсинг с помощью JS.
Т.е. полная иммитация обычного пользователя, которые открыл страницу события и тупо смотрит.
Да, под каждую контору каждого спорта нужно написать свой скрипт парсинга.
Но это не долго. Я в своем роботе такое делаю быстро.
Тут проблема в другом:
Одна открытая страница какого нибудь live события пожирает немало ресурсов компьютера.
А нам к примеру нужно парсить 100 контор, и у каждой конторы - 100 LIVE - событий. Т.е. одновременно нам нужно парсить 10 000 страниц, данные на которых обновляются каждую секунду...
Если парсить браузером - то понадобится несколько сотен виртуальных машин, чтобы были ресурсы для всех этих 10 000 одновременно открытых браузеров. И один мощный комп для DataBase - сервера, который будет принимать каждую секунду все эти 10 000 запросов от разных ботов.

Вопрос программистам: как думаете - как парсят поисковики LIVE вилок одновременно такое большое количество событий?

MoCeBp · 26 Мар 2018

Forklive написал(а):
Задумался тут о написании собственного сканера Live вилок.
Просто - тема интересная с технической точки зрения.
Стало интересно - как парсят live данные эти сканеры?
Я покопался в коде некоторых контор - все конторы работают по разному:
кто то по аяксом присылает обновленные коэффициенты в виде JSON-а, кто то готовый HTML.
Если пытаться разобраться в JSON массивах каждой конторы - то просто охренеешь разбираться что значит конкретное поле. Ну и не все обновляют JSON-ом.
Если постоянно посылать GET запросы - то во первых твой IP очень быстро забанят, во вторых - на многих конторах контент страницы формируется уже на client side - т.е. обычный GET запрос а таких конторах не покажет тебе ничего.
...
И вот я думаю - что основным универсальным методом парсинга - является парсинг с помощью JS.
Т.е. полная иммитация обычного пользователя, которые открыл страницу события и тупо смотрит.
Да, под каждую контору каждого спорта нужно написать свой скрипт парсинга.
Но это не долго. Я в своем роботе такое делаю быстро.
Тут проблема в другом:
Одна открытая страница какого нибудь live события пожирает немало ресурсов компьютера.
А нам к примеру нужно парсить 100 контор, и у каждой конторы - 100 LIVE - событий. Т.е. одновременно нам нужно парсить 10 000 страниц, данные на которых обновляются каждую секунду...
Если парсить браузером - то понадобится несколько сотен виртуальных машин, чтобы были ресурсы для всех этих 10 000 одновременно открытых браузеров. И один мощный комп для DataBase - сервера, который будет принимать каждую секунду все эти 10 000 запросов от разных ботов.

Вопрос программистам: как думаете - как парсят поисковики LIVE вилок одновременно такое большое количество событий?

Писать как все - долго, и вряд ли сейчас сможешь урвать себе кусок рынка.

Pilligrim · 26 Мар 2018

Да если умение то писать нужно только под себя. Выбрал 3-5 контор и все. Тут конечно преимущество будет в скорости. А еще если раписать такой небольшой сканер, чтобы не пересекался с другими. То наверное вааще было бы супер.

Forklive · 26 Мар 2018

У меня уже есть вариант где я парсю JS и тут же проставляю и все на автомате.
Но говорю: одно дело парсить 4 конторы, и пара спортов, другое дело 100 контор и все спорты и все события.
Это просто ТААААК ресурсоемко..... Даже парсинг 4-5 контор далеко не всех спортов и далеко не всех событий вешают виртуалки на 100%.

MoCeBp написал(а):
Писать как все - долго

А как это "как все"? Мне и интересно...

MoCeBp · 26 Мар 2018

Forklive написал(а):
У меня уже есть вариант где я парсю JS и тут же проставляю и все на автомате.
Но говорю: одно дело парсить 4 конторы, и пара спортов, другое дело 100 контор и все спорты и все события.
Это просто ТААААК ресурсоемко..... Даже парсинг 4-5 контор далеко не всех спортов и далеко не всех событий вешают виртуалки на 100%.

А как это "как все"? Мне и интересно...

Под "Как все" я подразумеваю 100500 секундные задержки.
Сделать "Подобный" сканер - долго, сложно, но можно.
Мгновенный - пока нет ни у кого.

MoCeBp · 26 Мар 2018

Pilligrim написал(а):
Да если умение то писать нужно только под себя. Выбрал 3-5 контор и все. Тут конечно преимущество будет в скорости. А еще если раписать такой небольшой сканер, чтобы не пересекался с другими. То наверное вааще было бы супер.

Был тут как-то один сканер который не пересекался с другми...

Pilligrim · 26 Мар 2018

MoCeBp написал(а):
Был тут как-то один сканер который не пересекался с другми...

И что? Как зовут сканер?))

MoCeBp · 26 Мар 2018

Pilligrim написал(а):
И что? Как зовут сканер?))

Я не могу произносить его имя, иначе он может вернуться)

Forklive · 26 Мар 2018

MoCeBp написал(а):
Под "Как все" я подразумеваю 100500 секундные задержки.

Это точно.
Я когда окунулся в тему вилок - вообще не понимал как люди пользуются сканерами.
На фонбете к примеру каждую секунду приходит обновление.
На других конторах - тоже часто.
И вот посчитаем:
Поисковик отпарсил коэффициенты, загрузил их в свою базу, потратил время на поиск и запись вилок, страница обновления поисковика раз в 5 секунд запрашивает обновления... это все секунды.. секунды.. секунды...
Потом пользователь принимает решение попытаться проставить... открыл одну страницу... открыл вторую страницу... нужно определить максы... посчитать плечи с учетом округления... проставить плечи... посмотреть где лучше проставить в первую очередь...

И вот мне казалось (да и сейчас кажется), что вероятность того что вилка провисит все это время стремится к нулю. Даже у моего бота количество попыток простановок и количество успешных простановок - это "две больше разницы".

Pilligrim · 26 Мар 2018

Forklive написал(а):
Это точно.
Я когда окунулся в тему вилок - вообще не понимал как люди пользуются сканерами.
На фонбете к примеру каждую секунду приходит обновление.
На других конторах - тоже часто.
И вот посчитаем:
Поисковик отпарсил коэффициенты, загрузил их в свою базу, потратил время на поиск и запись вилок, страница обновления поисковика раз в 5 секунд запрашивает обновления... это все секунды.. секунды.. секунды...
Потом пользователь принимает решение попытаться проставить... открыл одну страницу... открыл вторую страницу... нужно определить максы... посчитать плечи с учетом округления... проставить плечи... посмотреть где лучше проставить в первую очередь...

И вот мне казалось (да и сейчас кажется), что вероятность того что вилка провисит все это время стремится к нулю. Даже у моего бота количество попыток простановок и количество успешных простановок - это "две больше разницы".

А ты сам программист, на чем бот написан(если не секрет?)

MoCeBp · 26 Мар 2018

Forklive написал(а):
@MoCeBp

Зайди-ка в ЛС!

Forklive · 26 Мар 2018

Pilligrim написал(а):
А ты сам программист, на чем бот написан(если не секрет?)

Секрет))
Тут дело не в языке, а скорее - в общей идеологии.
Я использую автоматизацию браузера.
А браузер можно автоматизировать по всякому.
И среда разработки - тут дело десятое.

Forklive · 26 Мар 2018

Мне кажется что поисковики live вилок - типа AllBestBets используют что то другое.
Я уже покопался - есть всякие библиотеки, которые косят под браузер, и могут выполнять JS код, которые в итоге и формирует страницу, которую нужно отпарсить. Наверное - поисковики используют что то подобное.

Forklive · 26 Мар 2018

Не хватает немножко инсайдерской информации из поисковиков))))

NRs · 30 Дек 2018

Forklive написал(а):
Задумался тут о написании собственного сканера Live вилок.

Делай, конкуренция это хорошо.

>>...и вряд ли сейчас сможешь урвать себе кусок рынка<<
-------------
Сделаешь, что-то эдакое ещё как урвёшь. Лям чистыми можешь иметь в месяц)), так что думай и делай... чтобы в старости сидеть на жопе ровно и иметь лям чистыми в месяц.

Как парсят данные сканеры?

Forklive

MoCeBp

ВСЕ ВОПРОСЫ

Pilligrim

Вилочник

Forklive

MoCeBp

ВСЕ ВОПРОСЫ

MoCeBp

ВСЕ ВОПРОСЫ

Pilligrim

Вилочник

MoCeBp

ВСЕ ВОПРОСЫ

Forklive

Pilligrim

Вилочник

MoCeBp

ВСЕ ВОПРОСЫ

Forklive

Forklive

Forklive

NRs