Nutch
Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і Gora, адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера.
Файл:NutchScreenshot.png | |
Тип | пошуковий рушій |
---|---|
Розробник | Apache Software Foundation |
Стабільний випуск | 2.0 (9 липня 2012 ) |
Платформа | віртуальна машина Java |
Операційна система | крос-платформовий |
Мова програмування | Java |
Стан розробки | активний |
Ліцензія | Apache License 2.0 |
Репозиторій | github.com/apache/nutch |
Вебсайт | nutch.apache.org |
Система надає засоби для побудови високомасштабованих систем індексації, абстрагованих від типу сховища, що дозволяє використовувати такі сховища для великих обсягів даних, як Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase і HDFS, так і SQL-бази і розміщені в пам'яті NoSQL БД.
Використання
ред.На базі Nutch 2.0, запущеного поверх 34-вузлового Hadoop-кластера, побудований пошуковий сервіс компанії Kalooga, в індексі якого перебуває більше мільярда сторінок.[1]
На основі Nutch побудовані такі пошукові системи
- Creative Commons Search — запущений 2004, імплементація Nutch замінена 2006[2][3][4]
- DiscoverEd — прототип пошуку по відкритих освітніх ресурсах, що розробляється Creative Commons[5]
- Krugle
- mozDex
- Wikia Search — запущений 2008, закритий 2009[6][7]
- search2.net [Архівовано 5 квітня 2022 у Wayback Machine.]
Виноски
ред.- ↑ Реліз пошукового рушія Apache Nutch 2.0 [Архівовано 14 липня 2012 у Wayback Machine.] (рос.)
- ↑ Our Updated Search. Creative Commons. 3 вересня 2004. Архів оригіналу за 7 вересня 2011. Процитовано 10 липня 2012.
- ↑ Creative Commons Unique Search Tool Now Integrated into Firefox 1.0. Creative Commons. 22 листопада 2004. Архів оригіналу за 22 липня 2013. Процитовано 10 липня 2012.
- ↑ New CC search UI. Creative Commons. 2 серпня 2006. Архів оригіналу за 7 листопада 2011. Процитовано 10 липня 2012.
- ↑ DiscoverEd home page. Архів оригіналу за 25 квітня 2015. Процитовано 19 червня 2019.
- ↑ Where can I get the source code for Wikia Search?. Архів оригіналу за 4 листопада 2011. Процитовано 10 липня 2012.
- ↑ Update on Wikia – doing more of what’s working. Архів оригіналу за 3 травня 2009. Процитовано 10 липня 2012.
Посилання
ред.- Офіційний сайт
- Офіційні вікі [Архівовано 11 липня 2012 у Wayback Machine.]
- Building Nutch: Open Source Search [Архівовано 25 жовтня 2006 у Wayback Machine.](2004)- ACM Queue vol. 2, no. 2
- Стаття про Nutch(2003)- Search Engine Watch
- Ще стаття про Nutch [Архівовано 6 липня 2008 у Wayback Machine.](2003)- Tech News World
- Офіційна сторінка проекту Hadoop