Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Сообщения - A-Parser Support

Страницы: [1] 2 3
1
Сборник статей #5: собственный канал в Telegram и массовое добавление товаров в OpenCart
В 5-м сборнике статей на реальном примере будет показано, как создать свой канал в Телеграме и полностью автоматизировать его наполнение контентом. Также мы продолжаем цикл статей по работе с OpenCart и во 2-й части будет рассмотрен вопрос массового добавления товаров. Как обычно, в каждой статье приложены готовые JS парсеры, используя которые, можно на реальных примерах изучить описанные методы и поэксперементировать с ними. Поехали!

Полноценный Telegram канал на базе A-Parser
В этой статье будет описан способ создания полноценного канала в Telegram c автоматизированным сбором контента и постингом сообщений через заданные интервалы. И конечно, все это на базе A-Parser. Все подробности, а также готовые пресеты - по ссылке выше.


Работаем с OpenCart. Часть 2. Массовое добавление товаров
Мы продолжаем цикл статей о заливке товаров в интернет-магазин на базе OpenCart. Во второй части будет рассмотрено массовое добавление товара. Подробности, а также пример готового парсера - по ссылке выше.


Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :) ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники статей

2
1.2.292 - новый парсер Яндекс ИКС, улучшения в работе с кодировками, оптимизации встроенных парсеров

Улучшения

* Добавлен парсер SE::Yandex::SQI - парсер Индекса качества сайта (Яндекс ИКС)
* Оптимизирована работа Очереди заданий
* Добавлена поддержка множества экзотических кодировок китайского языка
* Добавлена опция Save as UTF-8 with BOM, которая решает проблему определения кодировки при открытии сформированного CSV в Excel
* SE::Youtube полностью переписан с использованием современного юзерагента
* SE::AOL::Suggest оптимизирован и переписан на JavaScript
* Улучшена работа SE::Google,SE::Google::Modern, Rank::MajesticSEO,SE::Bing,Shop::Amazon

Исправления в связи с изменениями в выдаче

* Исправлен парсинг мобильной выдачи в SE::Google::Modern
* Исправлено определение опечаток в SE::Google и SE::Google::Modern
* Исправлена ситуация, при которой в SE::Google::Modern в сниппеты могли попадать ненужные ссылки
* Исправлен парсинг рекламы в SE::Yandex
* Исправлен парсинг количества результатов в SE::Youtube
*  Удален SE::Yandex::TIC, т.к. больше не актуален
*  Исправлен Shop::Yandex::Market,SE::DuckDuckGo,SE::AOL::Suggest

Исправления

* Исправлена работа Net::Whois для некоторых доменных зон
* Исправлена ошибка, при которой не импортировался пресет, если не установлены модули, используемые в нем
* Исправлена кодировка при использовании fs.readdirSync в JS парсерах

3
Видео урок: Создание JS парсеров. Реализация подстановки запросов и их многопоточной обработки.
Продолжение цикла уроков по созданию JavaScript парсеров. В этом видео будет показано, как "на лету" добавлять запросы в задание и многопоточно их обрабатывать.

В одной из наших статей мы рассмотрели способ разработки парсера, который собирает ТОП 10 из выдачи поисковика, а затем по очереди парсит нужные данные по полученным ссылкам. Вроде все неплохо, но если у вас не 10 запросов, несколько тысяч? Задание будет выполняться очень долго, а время это самый драгоценный и не восполняемый ресурс.
К счастью в A-Parser есть такая замечательная вещь, как многоуровневый парсинг, который позволяет многократно увеличить скорость парсинга, и в этом видео мы рассмотрим как этой возможностью пользоваться.

В этом уроке рассмотрено:
  • Реализация раздельных процедур парсинга в зависимости от внешних условий, а именно - уровня парсинга
  • Подстановка запросов в задание "на лету"
  • Использование стандартных парсеров в кастомных JavaScript парсерах
Ссылки:
Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

4
25-й сборник рецептов
25-й сборник рецептов. В нем будет показан способ периодического парсинга с дозаписью результатов в таблицу, рассмотрен парсинг с помощью Node.js модуля Cheerio без использования регулярных выражений, а также показан парсер первой мобильной поисковой системы в Китае - Shenma. Поехали!

Периодическая проверка обратных ссылок с дозаписью результатов в таблицу
Пример решения одной из наиболее запрашиваемых задач - дозапись периодически получаемых результатов в одну и ту же таблицу. В качестве хранилища данных используется SQLite, при каждом запуске данные добавляются и выводятся в таблицу. Готовый пресет с комментариями - по ссылке выше.


Парсер поисковой системы Haosou
Как известно, в основе почти любого парсера используются регулярные выражения, реже - XPath. Работа с этими методами требует определенных знаний, что в свою очередь может вызывать некоторые сложности. Поэтому существуют и другие методы. Использование одного из них на примере парсинга популярного в Китае поисковика Haosou, показано по ссылке выше.


Парсер китайского поисковика Shenma
Еще один китайский поисковик в этом сборнике - Shenma. Это первая мобильная поисковая система в Китае, ориентирована в первую очередь на мобильные сайты. Пресет - по ссылке выше.


Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники рецептов:

5
1.2.270 - новый парсер Rank::Curlie, множество доработок в Node.js функционале



Улучшения
  • Добавлен новый парсер Rank::Curlie
  • В HTML::LinkExtractor улучшена обработка портов по умолчанию, теперь ссылки с портом приводятся к каноническому виду
  • Оптимизирована работа SE::Yandex::WordStat
  • Улучшена работа с сессиями в SE::Yandex
  • Улучшена обработка некорректных ответов в SE::Yandex SE::Google::Suggest
Исправления в связи с изменениями в выдаче
Исправления
  • Исправлена проблема с запуском на некоторых linux дистрибутивах
  • Исправлена загрузка node.js модулей в редких случаях на Windows
  • JS парсеры: добавлена поддержка dns.lookup и улучшена совместимость с модулем mysql2
  • JS парсеры: исправлен util.promisify
  • Исправлена работа некоторых Node.js модулей
  • В SE::Google::Modern и SE::Bing  $totalcount при 0 результатов теперь возвращает 0
  • Исправлено логгирование в режиме foreground

6
Видео урок: Создание JS парсеров. Работа с SQLite
Продолжение цикла уроков по созданию JavaScript парсеров. В этом видео показано, как работать с базой данных SQLite в JS парсере.



В этом уроке рассмотрены:
  • Знакомство с языком запросов SQL
  • Создание простейшей базы данных SQLite при работе с JS-парсером
  • Получение и запись данных в базу SQLite при работе с JS-парсером
Ссылки:

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

7
Сборник статей #4: добавление товаров в OpenCart и парсинг JSON

В 4-м сборнике статей будет рассмотрено добавление товаров в OpenCart, а также описано создание универсального парсера JSON. В каждой статье приложены готовые JS парсеры, используя которые, можно на реальных примерах изучить описанные методы и поэксперементировать с ними. Поехали!

Работаем с OpenCart. Часть 1. Вступление.

Данная статья начинает цикл об одной из наиболее часто запрашиваемых возможностей - заливке товаров в интернет-магазин. A-Parser - это универсальный инструмент, который кроме прочего может решать и такие задачи. Для тестов выбран движок OpenCart, в 1-й статье будет рассмотрена авторизация, получение списка товаров и добавление товара. Подробности, а также пример парсера - по ссылке выше.



Парсинг JSON ответов и работа с их содержимым

JSON - это довольно популярный способ предоставления данных, который, например, часто используется при работе с API различных сервисов. В А-Парсере есть встроенные инструменты для работы с ним, но не всегда их применение может быть простым, иногда требуется дополнительно писать сложные шаблоны, используя шаблонизатор. Поэтому в статье по ссылке выше будет рассказано, как написать простой универсальный парсер JSON.



Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :) ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники статей

8
1.2.246 - обновление базы Rank::CMS и новые функции в парсерах Baidu и MajesticSEO


Улучшения
  • В Rank::CMS обновлена база определяемых движков, теперь поддерживается одновременно старый и новый формат apps.json (при обновлении рекомендуется также обновить apps.json)
  • SE::Baidu полностью переписан:
    • добавлен парсинг related keywords
    • убран $cachedate из $serp, т.к. его похоже больше нет в выдаче
    • добавлена опция Get full link, преобразующая обрезанные ссылки в полные
    • исправлены некоторые регулярные выражения и баг с двойным http в ссылках
  • Изменения в Rank::MajesticSEO:
    • Добавлен параметр Check type, позволяет выбрать тип проверки: Root Domain/Subdomin/URL
    • Убран параметр Extract domain
    • Исправлена работа в некоторых случаях
  • Улучшена отзывчивость в редакторе JavaScript парсеров
  • Улучшена работа HTML::EmailExtractor, устранены зависания, которые возникали на определенных страницах
  • Обновлен список регионов в парсерах Яндекс
  • Пустой результат в SE::Google::Trends больше не считается неудачным запросом
  • Улучшена работа с сессиями в SE::Yandex::WordStat
Исправления в связи с изменениями в выдаче
  • Исправлен парсинг рекламы в SE::Yandex
  • Исправлена работа, а также улучшен алгоритм парсинга в SE:: DuckDuckGo
  • Исправлено указание региона в парсерах Яндекс
  • Исправлен парсинг $ads.$i.visiblelink в SE::Google::Modern
  • Исправлен парсинг $totalcount в SE::Yandex:: Direct
Исправления
  • Исправлена ошибка, из-за которой процент обработанных запросов мог быть больше 100
  • Исправлены ошибки, из-за которых парсинг мог зависать при снятии с паузы, а также сбивался перебор в макросах подстановок
  • Исправлено отображение кириллицы в $headers в Net::HTTP
  • Исправлена ошибка в Конструкторе результатов, из-за которой в редких случаях парсер мог падать
  • Устранена проблема с кодировкой при работе с SQLite
  • Исправлена ошибка со сменой прокси в JavaScript парсерах

9
Сборник рецептов #24: уведомление в Telegram об экспайре доменов, чекер РКН и работа с SQLite

24-й сборник рецептов. В нем мы научимся мониторить окончание срока регистрации доменов с уведомлением в Телеграм, сделаем альтернативный чекер сайтов в базе РКН, а также на простом примере парсера курсов валют изучим работу с базами данных. Поехали!

Получаем уведомления в Telegram об окончании срока регистрации доменов

Мониторинг сроков регистрации доменов - это довольно распространенная задача. A-Parser позволяет легко автоматизировать этот процесс. Более того, можно настроить получение прямо в Телеграм уведомлений о доменах, срок регистрации которых скоро закончится. Готовое решение для автоматической проверки с уведомлением - по ссылке выше.



Проверка блокировки РосКомНадзора через GitHub

В А-Парсере есть стандартный парсер Check::RosKomNadzor Check::RosKomNadzor, который позволяет проверять наличие сайтов в базе РКН. Данные получаются напрямую из официального сервиса, для работы обязательно нужно подключать антигейт. Кроме того, официальный сервис РКН часто подвергается атакам, в связи с чем может быть недоступен. Но существуют альтернативные источники данных, доступность которых значительно выше и к тому же не требующие проверки в виде каптчи. Парсинг одного из таких источников и реализована в пресете по ссылке выше.



Простой парсер обменника с записью в БД SQLite

Как известно, в A-Parser реализована возможность чтения/записи данных в БД SQLite. В этом рецепте показано использование этого функционала на примере парсинга курсов валют. Готовый парсер доступен по ссылке выше.



Еще больше различных рецептов в нашем Каталоге!

Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.


10
1.2.216 - улучшения в SE::Google::Modern и JS парсерах, а также множество других



Улучшения
  • Зависимая задача в Цепочке заданий теперь запускается только когда файл результатов не пустой
  • Добавлен повтор без смены прокси при неудачной отправке рекаптчи в SE::Google::Modern
  • Добавлен бан прокси при получении 403 кода ответа в SE::Google::Modern
  • Процент неудачных запросов теперь отображается относительно числа выполненных запросов
  • Добавлена возможность вызвать URL после выполнения задания
  • Улучшен обзор каталогов при выборе файлов запросов
  • Добавлена поддержка setInterval в JavaScript парсерах
  • Уменьшено Wait between get status и улучшено логгирование в Util::ReCaptcha2
  • Улучшена обработка редиректов
  • Добавлена защита от бесконечного выполнения в JavaScript парсерах
  • Значительно увеличены возможности check_content в JS парсерах
  • В ответе API метода info добавлены параметры workingTasks, activeThreads, activeProxyCheckerThreads
Исправления в связи с изменениями в выдаче
Исправления
  • Исправлено ведение лога при нескольких паузах задания
  • Исправлена ошибка, из-за которой запрос считался неудачным при пустой выдаче в SE::Google::Modern
  • Исправлена работа с url, содержащими фрагмент # в Net::HTTP
  • Исправлен парсинг ссылок в HTML::LinkExtractor
  • Исправлена работа опции Pages count в SE::Yandex
  • Исправлен выбор файлов запросов на Windows 10
  • Исправлена ошибка, из-за которой иногда нельзя было удалить файл с запросами
  • Исправлено отображение проксичекера в конфиге потоков
  • Исправлена кодировка некоторых результатов в SE::Google::Suggest
  • Исправлена ситуация, когда не читались настройки из config.txt

11
Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

23-й сборник рецептов. В нем мы будем парсить категории сайтов из Google, научимся формировать файлы YML, а также разберемся, как парсить даты и преобразовывать их в единый формат. Поехали!

Получение категорий сайтов из Google

Категоризация сайтов - довольно актуальная задача, но существует немного сервисов, которые могут ее решить. Поэтому, по ссылке выше можно взять небольшой парсер, который позволяет получать категории сайтов из Google.


Выгрузка товаров в формате YML

YML - это стандарт, разработанный Яндексом для работы с Маркетом. По своей сути, это файлы, схожие с XML, в которых содержится информация о товарах в интернет-магазине. Данный формат обеспечивает регулярное автоматическое обновление каталога на Яндекс.Маркет и позволяет отражать все актуальные изменения (наличие, цена, появление новых товаров). Пример парсинга интернет-магазина и сохранения собранных данных в YML можно посмотреть по ссылке выше.


Парсим Google новости с датой и преобразуем ее

В поисковой выдаче Google возле новостей публикуется дата. Как правило, это могут быть метки "10 ч. назад" или "26 мая 2018 г.". Иногда может возникнуть задача спарсить все даты и привести их к единому виду. Как именно это сделать, можно узнать по ссылке выше.


Кроме этого:
Еще больше различных рецептов в нашем Каталоге!

Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники рецептов:

12
Разгадывание рекаптч в JS парсере

Очередное видео в цикле уроков по созданию JavaScript парсеров. Здесь показано, как реализовать разгадывание рекаптч в JS парсере.



В уроке рассмотрено:
  • Описание и настройка парсера Util::ReCaptcha2
  • Описание принципа работы ReCaptcha2
  • Создание кастомного JavaScript парсера с поддержкой разгадывания рекаптч

Ссылки:
Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

13
1.2.185 - увеличение скорости в SE::Google::Modern, новые возможности Net:: DNS, множество улучшений


 
Улучшения
  • SE::Google::Modern - многократно увеличена скорость парсинга
  • Множество улучшений в Net:: DNS:
    • Возможность указать несколько DNS и задать метод выбора
    • Бан нерабочих/плохих DNS по специальному эвристическому алгоритму
    • Возможность вывести в результат использованный DNS сервер при удачном запросе
  • В SE::Google::Modern добавлена опция Use sessions
  • В SE::Yandex::WordStat добавлена настройка пресета антигейта для логина
  • Также в SE::Yandex::WordStat удалены настройки Use logins/Use sessions, теперь они включены всегда
  • Добавлена возможность автоматического удаления задания из Завершенных
  • В макросе подстановок {num} добавлена поддержка обратного отсчета
  • В JavaScript парсерах добавлена возможность сохранения произвольных данных в сессии
  • В JavaScript парсерах добавлена возможность прямого сохранения в файл
  • В API методе oneRequest/bulkRequest добавлена возможность указать configPreset
  • В связи с неактуальностью удалены парсеры SE::Google::Mobile и SE::Yandex::Catalog
Исправления в связи с изменениями в выдаче
Исправления
  • Количество неудачных больше не обнуляется при постановке на паузу
  • Исправлена проблема с подключением Node.js модулей на Linux
  • Исправлено падение парсера в редких ситуациях при использовании JS парсеров
  • Решена проблема с подключением Node.js модулей lodash, sequelize
  • Исправлена ошибка итератора при равных границах в макросе {num}

14
Сборник статей #3: пагинация, переменные и БД SQLite

В этом сборнике статей мы рассмотрим все возможные варианты решения задачи прохода по пагинации на сайтах, очень детально изучим работу с переменными в JavaScript парсерах, а также попробуем работать с базами данных SQLite на примере парсера курсов валют. Поехали!

Обзор вариантов прохода по пагинации

В A-Parser существует несколько способов, с помощью которых можно реализовать проход по пагинации. В связи с их разнообразием, становится актуальным вопрос выбора нужного алгоритма, который позволит максимально эффективно переходить по страницам в процессе парсинга. В этой статье мы постараемся разобраться с каждым из способов максимально подробно. Также будут показаны реальные примеры и даны рекомендации по оптимизации многостраничного парсинга. Статья - по ссылке выше.


Переменные в парсерах JavaScript

JS парсеры в А-Парсере появились уже около года назад. Благодаря им стало возможным решать очень сложные задачи по парсингу, реализовывая практически любую логику. В этой статье мы максимально подробно изучим работу с разными типами переменных, а также узнаем, как можно оптимизировать работу сложных парсеров. Все это - в статье по ссылке выше.


Разработка JS парсера с сохранением результата в SQLite

Начиная с версии 1.2.152 в A-Parser появилась возможность работать с БД SQLite.
В данной статье мы рассмотрим разработку JavaScript парсера, который будет парсить курсы валют из сайта finance.i.ua и сохранять их в БД. В результате получится парсер, в котором продемонстрированы основные операции с базами данных. Подробности, а также готовый парсер - по ссылке выше.



Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :) ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники статей

15
Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

22-й сборник рецептов. В нем мы разберемся, как проверять индексацию всех страниц сайта одновременно в нескольких поисковиках, научимся парсить данные по ссылкам из выдачи одним заданием и будем искать сабдомены на сайтах. Поехали!

Получение страниц сайта и проверка индексации в Google и Яндекс

Данный пресет позволяет спарсить ссылки на все страницы сайта и одновременно проверить их на предмет индексации поисковиками (в примере Google и Яндекс, можно по аналогии добавить другие ПС). Готовый пресет и описание по ссылке выше.


Парсим title и description для TOP10 поисковой выдачи по ключевому слову

Пример использования tools.query.add в JavaScript парсерах. Данный парсер получает ссылки из выдачи, после чего собирает из каждой страницы title и description. И все это одним заданием с максимальной производительностью, благодаря многопоточному парсингу. Парсер с описанием доступны по ссылке выше.


Поиск сабдоменов сайта

Небольшой пример, который демонстрирует, как собрать поддомены одного или нескольких сайтов. Используется HTML::LinkExtractor и Parse to level для прохода вглубь по страницам сайта. При этом Конструктором результатов извлекаются из внутренних ссылок домены и выводятся с уникализацией по строке. Готовый пресет - по ссылке выше.


Кроме этого:
Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники рецептов:

Страницы: [1] 2 3