Scrapy

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая Ablan Abkenov (обсуждение | вклад) в 12:06, 28 февраля 2020 (лого). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску
Scrapy
Логотип программы Scrapy
Тип Web crawler
Разработчик Scrapinghub, Ltd.
Написана на Python
Операционные системы Windows, macOS, Linux
Первый выпуск 26 июня 2008 (2008-06-26)
Последняя версия 1.8.0 (28 октября 2019; 5 лет назад (2019-10-28)[1])
Репозиторий github.com/scrapy/scrapy
Лицензия BSD License
Сайт scrapy.org (англ.)

Scrapy (читается как "скрэй-пай") – это бесплатный фреймворк для веб-краулинга находящийся в открытом доступе, который написан на языке программирования Python. Изначально задумывался для веб-скрейпинга, но так же может для извлечения информации используя API или же как веб краулер общего применения. [2] В настоящее время фреймворк обслуживается компанией Scrapinghub Ltd., которая разрабатывает и предоставляет услуги в сфере веб-скрейпинга.

Архитектура проекта Scrapy построена вокруг «пауков», которые по сути являются автономными краулерами с заданными инструкциями. Следуя другим фреймворкам которые работают по принципу don't repeat yourself, таких как Django, [3] это упрощает создание и масштабирование больших проектов обхода контента, позволяя разработчикам повторно использовать свой код. Scrapy также предоставляет командную оболочку для веб-краулинга, которую разработчики могут использовать для проверки своих предположений о поведении сайта. [4]

Некоторые известные компании и продукты, использующие Scrapy: Lyst, [5] [6] Parse.ly, [7] Sayone Technologies [8], Sciences Po Medialab, [9] государственный сайт Великобритании Data.gov.uk. [1]

История

Scrapy создавался в лондонской компании Mydeco, занимающейся веб-агрегацией и электронной торговлей, где ее разработали и поддерживали сотрудники Mydeco и Insophia (консалтинговая компания из Монтевидео, Уругвай). Первый публичный релиз был в августе 2008 года под лицензией BSD, а релиз Milestone 1.0 был выпущен в июне 2015 года. [10] В 2011 году Scrapinghub стал новым официальным мейнтейнером. [11] [12]

Ссылки

  1. Release notes — Scrapy documentation (англ.). doc.scrapy.org. Дата обращения: 2 ноября 2019.
  2. Scrapy at a glance.
  3. Frequently Asked Questions. Дата обращения: 28 июля 2015.
  4. Scrapy shell. Дата обращения: 28 июля 2015.
  5. Bell. Scalable Scraping Using Machine Learning. Дата обращения: 28 июля 2015.
  6. Scrapy | Companies using Scrapy
  7. Montalenti. Web Crawling & Metadata Extraction in Python.
  8. Scrapy Companies. Scrapy website.
  9. Hyphe v0.0.0: the first release of our new webcrawler is out!
  10. "Scrapy 1.0 official release out!" (Mailing list).
  11. Pablo Hoffman. List of the primary authors & contributors. — 2013.
  12. Interview Scraping Hub.

Внешние ссылки