Python паук: захват изображений Baidu по ключевым словам

Использование инструментов: Python2.7 Нажмите, чтобы скачать

фреймворк scrapy

sublime text3

Первый шаг. Установка python (версия Windows)

　1. Установка python2.7 - затем введите python в cmd, и если интерфейс следующий, то установка успешна

　2. Интеграция фреймворка Scrapy - введите команду в строке команд: pip install Scrapy

Интерфейс успешной установки следующий:

Есть много причин для неудачи, например:

Решение:

Другие ошибки можно найти в поиске Baidu.

Второй шаг. Начать программирование.

1. Качать статические веб-сайты без反-скрейпинга. Например, Baidu Tieba, Douban Book.

Например, тема на форуме «Пульт для компьютера»https://tieba.baidu.com/p/2460150866?red_tag=3569129009

Python-код следующий:

Комментарии к коду: были добавлены два модуля urllib и re. Определены две функции: первая функция для получения всех данных целевой веб-страницы, вторая функция для получения целевых изображений на целевой веб-странице,遍历网页, и сортировка полученных изображений по порядку, начиная с 0.

Примечание: знания модуля re:

Эффект изображения после захвата:

Путь сохранения изображений по умолчанию находится в файле в той же папке, что и созданный файл .py.

2. Поймать изображения, у которых есть меры по предотвращению подделки Baidu. Например, изображения Baidu и т.д.

Например, поисковый запрос по ключевому слову «эмоции пакета» https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111

Изображения загружаются с помощью скроллинга, сначала загружаются 30 изображений с наибольшим приоритетом.

Код следующий:

Комментарий к коду: импортируются 4 модуля, модуль os используется для указания пути сохранения. Два первых функции такие же, как и раньше. Третья функция использует оператор if и исключение tryException.

Процесс爬ания следующим образом:

Результаты爬ания:

Примечание: при написании кода Python уделяйте внимание выравниванию, и не смешивайте Tab и пробелы, это может привести к ошибкам.

Вот и все, что есть в этой статье, надеюсь, что содержимое статьи поможет вам в изучении или работе, также надеюсь, что вы будете активно поддерживать учебник «Кричать учебник»!

Заявление: содержимое статьи взято из Интернета, авторские права принадлежат соответствующему автору, контент предоставлен пользователями Интернета, сайт не имеет права собственности, не был отредактирован вручную, не несет ответственности за соответствующие юридические последствия. Если вы обнаружите контент,涉嫌侵犯版权， пожалуйста, отправьте письмо по адресу: notice#oldtoolbag.com (при отправке письма замените # на @) для сообщения о нарушении,并提供 соответствующие доказательства. При подтверждении факта нарушения сайт незамедлительно удаляет涉嫌侵权的内容.

Основной учебник

Рекомендуем к просмотру