İçeriğe atla

Web kazıma: Revizyonlar arasındaki fark

Vikipedi, özgür ansiklopedi
[kontrol edilmemiş revizyon][kontrol edilmiş revizyon]
İçerik silindi İçerik eklendi
Etiketler: Geri alındı potansiyel vandalizm Görsel Düzenleyici
Gerekçe: Nedensiz içerik silinmesi
Etiket: Geri al
20. satır: 20. satır:


== Yasal sorunlar ==
== Yasal sorunlar ==
Web kazıma, bazı web sitelerinin kullanım koşullarına aykırı olabilir. Bu terimlerin uygulanabilirliği belirsizdir. Orijinal ifadenin düpedüz çoğaltılması birçok durumda yasadışı olacak olsa da, Amerika Birleşik Devletleri mahkemeleri gerçeklerin çoğaltılmasının izin olduğuna karar vermiştir (Feist Yayınları v. Kırsal Telefon Hizmeti kararı). ABD mahkemeleri, "kazıyıcı" veya "robotlar" kullanıcılarının kazıyıcı kullanımının, kişisel mülkiyetin ihlali olarak kabul edilebileceğini ve bir bilgisayar sistemine girme işlemi olarak değerlendirilebileceğini kabul etmektedir. En iyi bilinen durumlardan biri, eBay v. Teklif Sahibinin Kenarı davasıdır, bu da teklifleri otomatik olarak yerleştiren, "ihale sniping" olarak bilinen bir davranışa karşı alınan bir tedbir siparişiyle sonuçlanmıştır.
 Web kazıma bazı web sitelerinin kullanım koşullarını aykırı olabilir. Bu terimlerin uygulanabilirliği belirsizdir. Orijinal ifadenin düpedüz çoğaltılması birçok durumda yasadışı olacak olsa, Amerika Birleşik Devletleri mahkemeleri gerçeklerin çoğaltılması izin olduğunu Feist Yayınları v. Kırsal Telefon Hizmeti karar verdi. ABD mahkemeleri "kazıyıcı" veya "robotlar" nin kullanıcıların kazıyıcı kullanıcı geçmeleri ise bunun üzerine kendisinin kişisel mülkiyet kabul ediliyor, bir bilgisayar sistemi gerektirir taşınır için haneye tecavüz, işlemekten sorumlu olabileceğini kabul etmektedir. En iyi bu gibi durumlarda bilinen, eBay v. Teklif Sahibinin Kenar, toplama, erişen durdurmak için bir tedbir sipariş Teklif Sahibinin Edge sonuçlandı ve eBay web sitesinden indeksleme ihaleleri. Bu durum ihale sniping olarak bilinen tekliflerin otomatik yerleştirerek, içeriyordu. Ancak, taşınır için haneye tecavüz iddiası üzerine başarılı olmak için, davacı davalı kasten ve izinsiz bilgisayar sisteminde davacının sahiplik ilgi ile ve sanığın izinsiz kullanımı davacıya zarar olduğunu müdahale olduğunu göstermek zorundadır. Mahkemeler taşınır için suç olarak kabul edilmiştir önce değil, web spidering tüm olgular getirdi.<ref>{{Web kaynağı | url = http://www.tomwbell.com/NetLaw/Ch07/Ticketmaster.html | başlık = Ticketmaster Corp. v. Tickets.com, Inc. | erişimtarihi = 20 Ağustos 2007 | tarih = 20 Ağustos 2007 | eser = | yayıncı = | sayfalar = | dil = | doi = | arşivurl = https://web.archive.org/web/20070928064030/http://www.tomwbell.com/NetLaw/Ch07/Ticketmaster.html | arşivtarihi = 28 Eylül 2007 | alıntı = | arşivengelli = evet | ölüurl = hayır }}</ref>


Ekranın ilk önemli testlerden biri American Airlines (AA) dahil ve FareChase adında bir firma kazıma. AA başarıyla da AA'nın web sitesini arar eğer çevrimiçi tarifeleri karşılaştırmak olanak tanır yazılım satan farechase durdurma, Texas mahkemesinin bir emir aldı. Havayolu kamuya açık verileri toplamış zaman farechase en websearch yazılım AA'nın sunucularında tecavüz savundu. FareChase Haziran farechase tarafından 2003 yılı Mart ayında bir temyiz başvurusunda ve AA yerleşmeye karar verdiler ve temyiz düştü.<ref>{{Web kaynağı | url = http://www.thefreelibrary.com/American+Airlines,+FareChase+Settle+Suit.-a0103213546 | başlık = American Airlines, FareChase Settle Suit. | erişimtarihi = 26 Şubat 2012 | tarih = 13 Haziran 2003 | yayıncı = The Free Library | arşivengelli = evet | arşiv-url = https://web.archive.org/web/20160305025808/http://www.thefreelibrary.com/American+Airlines,+FareChase+Settle+Suit.-a0103213546 | arşiv-tarihi = 5 Mart 2016 | ölüurl = evet }}</ref>
Ekran kazımanın ilk önemli testlerinden biri American Airlines (AA) ve FareChase adlı bir firma arasında gerçekleşti. AA, çevrimiçi tarifeleri karşılaştırmaya olanak tanıyan bir yazılım satan FareChase'nin AA web sitesini aramasını durdurmak için bir Texas mahkemesi kararı aldı. Havayolu şirketi, FareChase'in AA'nın sunucularına tecavüz ettiğini savunduğu zaman, FareChase kamuya açık verileri topladığını iddia etti. Mahkeme, FareChase'in AA web sitesine girmesinin yasal olmadığına hükmetti ve davada FareChase'in lehine karar verdi.


Southwest Airlines ayrıca ekran kazıma uygulamaları meydan ve farechase ve yasal iddia başka bir firma, Outtask, hem de yer vardır. Southwest Airlines o "Bilgisayar Dolandırıcılığı ve Kötüye" bir örneğidir ve "Hasar ve Zarar" ve Southwest'in sitenin "Yetkisiz Erişim" yol açmıştır çünkü ekran kazıma Yasadışı olduğunu suçladı. Aynı zamanda "İş İlişkileri Girişim", "İzinsiz" ve "Bilgisayar sağlığa zararlıdır Erişim" oluşturmaktadır. Onlar da ekran kazıma yasal "zimmete para geçirme ve Sebepsiz zenginleşme", yanı sıra web sitesinin kullanıcı sözleşmesi ihlal olarak bilinen teşkil ettiğini iddia etti. Outtask Bu durumda hakim kanun ABD Telif hakkı yasası ve telif hakkı altında, bilgi parçaları telif hakkı korumasına tabi olmayacaktır kazınarak varlık olduğunu olması gerektiğini iddia ederek, tüm bu iddiaları yalanladı. Davalar, Amerika Birleşik Devletleri Yüksek Mahkemesi giderilmiş asla rağmen, FareChase sonunda ana şirket Yahoo tarafından kepenkli edildi !, ve Outtask seyahat gideri şirketi hemfikir tarafından satın alındı. 2012 yılında, 3Taps adında bir başlangıç ​​Craigslist adlı gizli konut reklamları kazınmış. Craigslist 3Taps-kes ve-vazgeçmek mektup göndermiş ve onların IP adreslerini bloke daha sonra Craigslist v. 3Taps olarak, dava açtı. Mahkeme Craigslist düzgün 3Taps olduğunu Bilgisayar Dolandırıcılık ihlal ve Kötüye Kullanma Yasası vardı iddia etmek için ateşkes ve-vazgeçmek mektup ve IP engelleme yeterli olduğuna karar vermiştir.
Southwest Airlines da ekran kazıma uygulamalarına karşı çıktı ve FareChase ile birlikte Outtask adlı başka bir firma hakkında yasal iddialarda bulundu. Southwest Airlines, ekran kazımanın yasa dışı olduğunu iddia ederek, bu davranışın web sitesine yetkisiz erişime yol açtığını ve sitenin işleyişini bozduğunu savundu. Mahkemeler, bu tür davranışların suç olarak kabul edilmediği sürece, web spideringin her durumda haksız olduğunu kabul etmemişlerdir.


 Bu erken kazıma kararlar ve sorumluluk teorileri üniforma olmasa da, bu mahkemelerin bu tür sitelerin sahiplerine istenmeyen kullanımlar ticari sitelerde özel içeriği korumak için hazır olduklarını ortaya bir model göz ardı etmek zordur. Ancak, bu tür içerik için koruma derecesi yerleşmiş değildir ve raspa tarafından yapılan erişim türüne bağlıdır, bilgi miktarı erişilebilir ve kopyalanamaz, derecesi erişimi olumsuz sitesi sahibinin sistemi ve türleri ve etkileri böyle davranış üzerindeki yasaklar şekilde.<ref>{{Web kaynağı | url = http://library.findlaw.com/2003/Jul/29/132944.html | başlık = Controversy Surrounds 'Screen Scrapers': Software Helps Users Access Web Sites But Activity by Competitors Comes Under Scrutiny | erişimtarihi = 27 Ekim 2010 | ad = Kenneth A. | soyadı = Adler | tarih = 29 Temmuz 2003 | arşivengelli = evet | arşiv-url = https://web.archive.org/web/20110211123854/http://library.findlaw.com/2003/Jul/29/132944.html | arşiv-tarihi = 11 Şubat 2011 | ölüurl = evet }}</ref>
Bu erken kararlar ve sorumluluk teorileri belki de bir standart oluşturmamış olsa da, bu tür sitelerin sahiplerine karşı ticari sitelerde özel içeriği korumak için mahkemelerin hazır olduğunu göstermektedir. Ancak, bu tür içeriğin korunma derecesi henüz netleşmemiştir ve raspa (kazıma) tarafından erişilen bilgilere bağlıdır. Bu, site sahibinin sistemine olumsuz etkisi ve bu davranışın yasaklanmasıyla ilgili tür ve etkileri gibi faktörlere bağlıdır.


Bu alanda yasa daha yerleşmiş olur iken, kişiler hakkında da bu tür eylem kullanımı ve diğer şartlar veya bildirimler yayınlanan veya site aracılığıyla sunulan koşullarını gözden tarafından yetkilendirilmiş olup olmadığını düşünmelisiniz kamu web sitesine erişmek için kazıma programları kullanılarak düşünürken. Cvent, Inc v bir 2010 kararında. Eventbrite, Inc Virginia doğu bölgesi için Amerika Birleşik Devletleri bölge mahkemesi, mahkeme kullanım koşulları bir browse için için kullanıcıların dikkatine getirdi gerektiğine hükmetti şal ​​sözleşmesi veya lisans uygulanmak üzere. Pennsylvania Doğu Bölgesi ABD Bölge Mahkemesi açılan bir 2014, yılında, e-ticaret sitesi QVC gerçek zamanlı fiyatlandırma verilerine QVC sitesinin Pinterest benzeri bir alışveriş toplayıcı Resultly en kazıma itiraz. QVC Resultly QVC perakende sitesi QVC için kayıp satış sonuçlanır iki gün çökmesine QVC sitesini neden (sözde Dakikada 36.000 isteklerine bazen dakikada QVC web sitesine 200-300 arama istekleri göndererek) "aşırı sürünerek" diye allges. QVC yaptığı şikayet davalı kaynak IP adresini maskelemek için web tarayıcısını gizlenmiş ve böylece hızlı bir şekilde sorunu tamir dan QVC engelledi iddia etmektedir. QVC QVC iddiaları Resultly neden oldu kendi web sitesi, kullanılamaması için tazminat istiyor çünkü bu özellikle ilginç kazıma durumdur.
Bu alandaki yasa daha net bir şekilde belirlenirken, insanlar web sitelerine erişmek için kazıma programları kullanırken, kullanım koşulları ve diğer bildirimlerin yayınlanıp yayınlanmadığını dikkate almalıdır. 2010'da Cvent, Inc. v. Eventbrite, Inc. kararında, mahkeme kullanıcıların dikkatini çekmek için kullanım koşullarını açıkça belirtmenin gerekliliğine hükmetti. Benzer şekilde, Pennsylvania Doğu Bölgesi ABD Bölge Mahkemesi, 2014'te, QVC'nin Pinterest benzeri bir alışveriş toplayıcısı olan Resultly'nin kazımasına itiraz ettiği bir davada QVC'nin lehine karar verdi. Bu davada QVC, Resultly'nin aşırı sürünmesinin (dakikada 36.000'den fazla istek göndererek) web sitesinin çökmesine neden olduğunu iddia etti.


Kullanım link şartları internet üzerindeki en siteleri gibi sayfanın altındaki sitenin tüm bağlantıları, içinde görüntülenen bu davanın döneminde davacının web sitesinde. Bu iktidar aşağıda açıklanan İrlandalı kararı çelişmektedir. Mahkeme ayrıca göz şal kısıtlamaları Düzgün Bilgisayar Enformasyon İşlemleri Yasası (UCITA )birçok ortak göz şal müteahhitlik uygulamaları konusunda lehine olduğuna inanıyordu -a üniforma hukuku Virginia'nın kabul görünümünde uygulanabilir olduğu davacının iddiasını reddetmiştir.<ref>{{Web kaynağı | url = http://www.fornova.net/documents/pblog-bna-com.pdf | başlık = Did Iqbal/Twombly Raise the Bar for Browsewrap Claims? | erişimtarihi = 27 Ekim 2010 | tarih = 17 Eylül 2010 | arşivengelli = evet | arşivurl = https://web.archive.org/web/20110723132015/http://www.fornova.net/documents/pblog-bna-com.pdf | arşivtarihi = 23 Temmuz 2011 | ölüurl = evet }}</ref>
Web sitelerinin alt kısmında bulunan bağlantıların kullanım şartları genellikle tüm siteyi ziyaret eden kişilere bağlanırken, bu otorite İrlanda'daki bir kararla çelişmektedir. Mahkeme ayrıca, Virginia'da genel olarak uygulanan Düzgün Bilgisayar Enformasyon İşlemleri Yasası'nın birçok gözaltı uygulamasının lehine olduğunu düşünmüştür.


Amerika Birleşik Devletleri dışında, 2006 yılı Şubat ayında, Danimarka Denizcilik ve Ticaret Mahkemesi (Kopenhag )Home.dk Danimarkalı yasa veya çakışmaması emlak sitesi portal sitesi OfiR.dk sistematik taranmasına, indeksleme ve derin bağlama hükmetti Avrupa Birliği direktifi veritabanı.<ref>{{Web kaynağı | url = http://www.bvhd.dk/uploads/tx_mocarticles/S_-_og_Handelsrettens_afg_relse_i_Ofir-sagen.pdf | başlık = UDSKRIFT AF SØ- & HANDELSRETTENS DOMBOG | erişimtarihi = 30 Mayıs 2007 | tarih = 24 Şubat 2006 | yayıncı = bvhd.dk | arşivengelli = evet | arşivurl = https://web.archive.org/web/20071012005033/http://www.bvhd.dk/uploads/tx_mocarticles/S_-_og_Handelsrettens_afg_relse_i_Ofir-sagen.pdf | arşivtarihi = 12 Ekim 2007 | ölüurl = evet }}</ref>
Amerika Birleşik Devletleri dışında, 2006'da Danimarka Denizcilik ve Ticaret Mahkemesi, Home.dk'ya, Danimarka'nın veritabanı hakkına ilişkin bir AB direktifine dayanarak, OfiR.dk'nın sistemli kazılmasını, indekslenmesini ve derin bağlanmasını yasaklamıştır.


2009 yılında Facebook bilinen bir web kazıyıcı karşı ilk telif takım elbise birini kazandı. Bu mahkemelerin internette olduğu gibi adil kullanım adlandırılan elimden doğrudan telif hakkı ihlali ve çok net parasal zararlar En son durumda olmak AP v erime suyundan oluşan, birlikte kazıma herhangi bir web kravat sayısız davalar için zemin hazırlamıştır.<ref>{{Web kaynağı | url = http://www.distilnetworks.com/is-web-scraping-illegal-depends-on-what-the-meaning-of-the-word-is-is/ | başlık = Is web scraping illegal depends on what the meaning of the word is is | arşivengelli = evet | erişimtarihi = 9 Ocak 2016 | arşiv-url = https://web.archive.org/web/20160110024354/http://www.distilnetworks.com/is-web-scraping-illegal-depends-on-what-the-meaning-of-the-word-is-is | arşiv-tarihi = 10 Ocak 2016 | ölüurl = hayır }}</ref>
Web kazıma konusunda yargı konuları giderek karmaşık hale gelmektedir. Ancak, özellikle ticari sitelerde, kullanıcıların web sitesine erişmek için koşulları kabul etmeleri gerektiğini belirten bildirimlerin ve koşulların önemi giderek artmaktadır.

Şubat yargı konularında karmaşık 2.010 dava, İrlanda'nın Yüksek Mahkemesi içtihatlarını geliştirme inchoate durumunu gösteren bir karar verdi. Ryanair Ltd v Billigfluege.de GmbH şirketinin durumunda, İrlanda'nın Yüksek Mahkemesi yasal olarak bağlayıcı olmasını Ryanair " click- wrap " anlaşması hükmetti. ABD Bölge Mahkemesi Doğu Virginia Bölge ve Danimarka Denizcilik ve Ticaret Mahkemesi bu bulgular aksine, Sayın Adalet Michael Hanna Ryanair'ın hüküm ve koşullara köprü açıkça görünür oldu, ve o hükmetti üzerinde yükümlülüklerini de ortadan yerleştirerek kullanıcı bir sözleşme ilişkisi içermesi yeterlidir çevrimiçi hizmetlere erişmek amacıyla şartları ve koşulları kabul etmek. Karar İrlanda'nın Yargıtay'da temyiz aşamasındadır .I<ref>{{Web kaynağı | url = http://www.lkshields.ie/htmdocs/publications/newsletters/update26/update26_03.htm | başlık = Intellectual Property: Website Terms of Use | tarih = Haziran 2010 | yayıncı = LK Shields Solicitors Update | eser = Issue 26: June 2010 | sayfalar = 03 | ad = Áine | soyadı = Matthews | erişimtarihi = 19 Nisan 2012 | arşivengelli = evet | arşivurl = https://web.archive.org/web/20120624103316/http://www.lkshields.ie/htmdocs/publications/newsletters/update26/update26_03.htm | arşivtarihi = 24 Haziran 2012 | ölüurl = evet }}</ref>

Avustralya, Spam Yasası 2003 haydutlar web hasat bazı formları, bu sadece e-posta adreslerine de geçerlidir rağmen
<ref>{{Web kaynağı | url = http://www.acma.gov.au/webwr/consumer_info/spam/spam_overview_for%20_business.pdf | başlık = Spam Act 2003: An overview for business | erişimtarihi = 9 Mart 2009 | yazar = National Office for the Information Economy | tarih = Şubat 2004 | yayıncı = Australian Communications Authority | sayfalar = 6 | arşivengelli = evet | arşivurl = https://web.archive.org/web/20090521211547/http://www.acma.gov.au/webwr/consumer_info/spam/spam_overview_for%20_business.pdf | arşivtarihi = 21 Mayıs 2009 | ölüurl = evet }}</ref><ref>{{Web kaynağı | url = http://www.acma.gov.au/webwr/consumer_info/frequently_asked_questions/spam_business_practical_guide.pdf | başlık = Spam Act 2003: A practical guide for business | erişimtarihi = 9 Mart 2009 | yazar = National Office for the Information Economy | tarih = Şubat 2004 | yayıncı = Australian Communications Authority | sayfalar = 20 | arşivengelli = evet | arşivurl = https://web.archive.org/web/20090407071238/http://www.acma.gov.au/webwr/consumer_info/frequently_asked_questions/spam_business_practical_guide.pdf | arşivtarihi = 7 Nisan 2009 | ölüurl = evet }}</ref>


== Kayda değer araçları ==
== Kayda değer araçları ==

Sayfanın 17.44, 23 Mart 2024 tarihindeki hâli

Web kazıma süreci

Web kazıma (web hasat veya web veri çekimi) web sitelerinden bilgi çıkartmanın bilgisayar programı tekniğidir. Çoğunlukla, bu tür yazılım programları düşük seviye Köprü Metni Aktarım Protokolü (HTTP) veya Mozilla Firefox gibi tam teşekküllü gömülü web tarayıcısı tarafından World Wide Web'in insan araştırmaları simüle edilir.

Web kazıma, web indeksleme ile yakından ilgilidir, web'de hangi bilgi indekslenmişse bir bot ya da web gezgini kullanılmıştır ve bu çoğu arama motoru tarafından benimsenen evrensel bir tekniktir. Buna karşılık, web kazıma genellikle web'de HTML biçimindeki yapılandırılmamış verilerin dönüşümüne odaklanır, yapılandırılmış veriler merkezi yerel veritabanında ya da tablolarda analiz edilip saklanabilir. Web kazıma aynı zamanda web otomasyonuyla ilgilidir, insan taramasının simüle edilmesi bilgisayar programı kullanılarak yapılır. Web kazımanın kullanımı, online fiyat karşılaştırması, iletişim bilgileri kazımı, hava durumu takibi, website değişikliklerinin bulunması, web mashup ve web bilgi entegrasyonunu içerir.

Web kazıma yakından çoğu arama motorları tarafından benimsenen evrensel bir tekniktir bot veya web tarayıcımızın kullanarak web'de dizine bilgileri ve web indeksleme ile ilgilidir. Buna karşılık, web kazıma merkezi yerel veritabanı veya elektronik saklanır ve analiz edilebilir yapılandırılmış veri içine, genellikle HTML biçiminde, web üzerinde yapılandırılmamış verilerin dönüşümü daha fazla odaklanıyor. Web kazıma ayrıca bilgisayar yazılımı kullanılarak insan tarama taklit web otomasyon ile ilgilidir. Web kazıma Kullanımı Online fiyat karşılaştırma, iletişim kazıma, hava durumu verileri izleme, web sitesi değişikliği algılama, araştırma, web mashup ve web veri entegrasyonu yer alıyor.

Teknikler

 Web kazıma otomatik World Wide Web'den bilgi toplama işlemidir. Bu semantik web vizyonu, hala metin işleme, anlamsal anlayış, yapay zeka ve insan-bilgisayar etkileşiminde devrimler gerektiren iddialı bir girişim ile ortak hedefe paylaşan aktif gelişmelerin bir alandır. Mevcut web kazıma çözümleri tamamen sınırlamalar, yapılandırılmış bilgi içine tüm web sitelerini dönüştürmek mümkün otomatik sistemlere kadar, insan çaba gerektiren, reklam hoc arasında değişir.

  •  İnsan kopyalama ve yapıştırma: Bazen en iyi web kazıma teknolojisi insanın manuel muayene ve kopyalama ve yapıştırma yerini alamaz ve bazen bu tek uygulanabilir çözüm olabilir zaman açıkça makine otomasyonu önlemek için engelleri kurmak kazıma için web siteleri.
  • Metin grepping ve düzenli ifade eşleşmesi: web sayfalarından bilgileri ayıklamak için basit ama güçlü bir yaklaşım UNIX grep komutuyla ya da (örneğin Perl veya Python için )Programlama dillerinin düzenli ifade eşleştirme tesislerine dayalı olabilir.
  •  HTTP programlama : Statik ve dinamik web sayfaları soket programlama kullanarak uzak web sunucusuna HTTP isteklerini göndererek alınabilir .
  •  HTML ayrıştırıcıları : Birçok web sitesi bir veritabanı gibi altta yatan yapısal bir kaynaktan dinamik olarak oluşturulan sayfaların büyük koleksiyonları var. Aynı kategorideki verileri genellikle ortak bir komut dosyası veya şablon benzer sayfalarına kodlanmıştır. Bir sargı denir veri madenciliği, belli bir bilgi kaynağı gibi şablonlar algılayan bir program, içeriği ayıklar ve ilişkisel forma çevirir. Sarıcı nesil algoritmaları bir sarmalayıcı indüksiyon sistemi giriş sayfaları ortak şablona uygun ve kolayca bir URL ortak düzeni açısından tespit edilebilir varsayalım. Ayrıca, bu tür XQuery ve HTQL gibi bazı yarı yapılandırılmış veri sorgulama dilleri, HTML sayfaları ayrıştırmak ve almak ve sayfa içeriği dönüştürmek için kullanılabilir.
  •  DOM ayrıştırma : Internet Explorer veya Mozilla tarayıcısı kontrolü gibi tam teşekküllü bir web tarayıcı, gömme, programlar istemci tarafı komut tarafından oluşturulan dinamik içeriği alabilirsiniz. Bu tarayıcı kontrolleri de programların sayfalarının parçalarını almak hangi dayalı bir DOM ağacına web sayfalarını ayrıştırmak.
  • Web kazıma yazılım: Web kazıma çözümleri özelleştirmek için kullanılabilecek birçok yazılım araçları vardır. Bu yazılım otomatik olarak sayfanın veri yapısını tanımak veya saklayabilirsiniz elle web kazıma kod yazmak için gerekliliğini ya da özü ve içeriği dönüştürmek için kullanılabilecek bazı betik fonksiyonları ve veri tabanı arayüzleri kaldıran bir kayıt arabirimi sağlamak için deneyebilir yerel veritabanlarında kazınarak verileri.
  •  Dikey kümelenme platformları: Dikey belirli hasat platformları geliştirdik birkaç şirket var. Bu platformlar oluşturmak ve hayır " döngüde adam" (doğrudan insan müdahalesi) ve belirli bir hedef sitesi ile ilgili herhangi bir çalışma ile belirli dikey için " bot" çok sayıda monitör. Hazırlık tüm dikey ve ardından platformu botlar otomatik olarak oluşturur için bilgi tabanını oluşturulması içerir. Platformun sağlamlığı (o yüzlerce ya da binlerce site kadar ölçeklendirilebilir nasıl hızlı) o alır bilgilerin (alanların genellikle sayı) ve ölçeklenebilirlik kalitesi ile ölçülür. Bu ölçeklenebilirlik çoğunlukla ortak toplayan karmaşık veya çok emek-yoğun hasat içeriğine bulmak sitelerin Long Tail hedeflemek için kullanılır.
  •  Semantik açıklama tanıyarak : özgü veri parçacıkları bulmak için kullanılabilecek meta veya anlamsal işaretlerini ve açıklamaları kucaklamak olabilir kazınarak olan sayfalar. Açıklamalar sayfalarında gömülü ise Microformat yaptığı gibi, bu teknik DOM ayrıştırma özel bir durum olarak görülebilir. Başka bir durumda, bir semantik katmana halinde organize ek açıklamalar, saklanır ve web sayfalarından ayrı olarak yönetilen, yani sıyırıcılar sayfalarını kazıma önce bu katmanda veri şema ve talimatları alabilirsiniz .
  • Bilgisayar vizyon web sayfası analiz: tanımlamak ve bir insan olarak görsel sayfaları yorumlayarak web sayfalarından bilgileri ayıklamak girişimi makine öğrenme ve bilgisayar vizyonu ile çalışmalar vardır olabilir.[1]

Yasal sorunlar

 Web kazıma bazı web sitelerinin kullanım koşullarını aykırı olabilir. Bu terimlerin uygulanabilirliği belirsizdir. Orijinal ifadenin düpedüz çoğaltılması birçok durumda yasadışı olacak olsa, Amerika Birleşik Devletleri mahkemeleri gerçeklerin çoğaltılması izin olduğunu Feist Yayınları v. Kırsal Telefon Hizmeti karar verdi. ABD mahkemeleri "kazıyıcı" veya "robotlar" nin kullanıcıların kazıyıcı kullanıcı geçmeleri ise bunun üzerine kendisinin kişisel mülkiyet kabul ediliyor, bir bilgisayar sistemi gerektirir taşınır için haneye tecavüz, işlemekten sorumlu olabileceğini kabul etmektedir. En iyi bu gibi durumlarda bilinen, eBay v. Teklif Sahibinin Kenar, toplama, erişen durdurmak için bir tedbir sipariş Teklif Sahibinin Edge sonuçlandı ve eBay web sitesinden indeksleme ihaleleri. Bu durum ihale sniping olarak bilinen tekliflerin otomatik yerleştirerek, içeriyordu. Ancak, taşınır için haneye tecavüz iddiası üzerine başarılı olmak için, davacı davalı kasten ve izinsiz bilgisayar sisteminde davacının sahiplik ilgi ile ve sanığın izinsiz kullanımı davacıya zarar olduğunu müdahale olduğunu göstermek zorundadır. Mahkemeler taşınır için suç olarak kabul edilmiştir önce değil, web spidering tüm olgular getirdi.[2]

Ekranın ilk önemli testlerden biri American Airlines (AA) dahil ve FareChase adında bir firma kazıma. AA başarıyla da AA'nın web sitesini arar eğer çevrimiçi tarifeleri karşılaştırmak olanak tanır yazılım satan farechase durdurma, Texas mahkemesinin bir emir aldı. Havayolu kamuya açık verileri toplamış zaman farechase en websearch yazılım AA'nın sunucularında tecavüz savundu. FareChase Haziran farechase tarafından 2003 yılı Mart ayında bir temyiz başvurusunda ve AA yerleşmeye karar verdiler ve temyiz düştü.[3]

Southwest Airlines ayrıca ekran kazıma uygulamaları meydan ve farechase ve yasal iddia başka bir firma, Outtask, hem de yer vardır. Southwest Airlines o "Bilgisayar Dolandırıcılığı ve Kötüye" bir örneğidir ve "Hasar ve Zarar" ve Southwest'in sitenin "Yetkisiz Erişim" yol açmıştır çünkü ekran kazıma Yasadışı olduğunu suçladı. Aynı zamanda "İş İlişkileri Girişim", "İzinsiz" ve "Bilgisayar sağlığa zararlıdır Erişim" oluşturmaktadır. Onlar da ekran kazıma yasal "zimmete para geçirme ve Sebepsiz zenginleşme", yanı sıra web sitesinin kullanıcı sözleşmesi ihlal olarak bilinen teşkil ettiğini iddia etti. Outtask Bu durumda hakim kanun ABD Telif hakkı yasası ve telif hakkı altında, bilgi parçaları telif hakkı korumasına tabi olmayacaktır kazınarak varlık olduğunu olması gerektiğini iddia ederek, tüm bu iddiaları yalanladı. Davalar, Amerika Birleşik Devletleri Yüksek Mahkemesi giderilmiş asla rağmen, FareChase sonunda ana şirket Yahoo tarafından kepenkli edildi !, ve Outtask seyahat gideri şirketi hemfikir tarafından satın alındı. 2012 yılında, 3Taps adında bir başlangıç ​​Craigslist adlı gizli konut reklamları kazınmış. Craigslist 3Taps-kes ve-vazgeçmek mektup göndermiş ve onların IP adreslerini bloke daha sonra Craigslist v. 3Taps olarak, dava açtı. Mahkeme Craigslist düzgün 3Taps olduğunu Bilgisayar Dolandırıcılık ihlal ve Kötüye Kullanma Yasası vardı iddia etmek için ateşkes ve-vazgeçmek mektup ve IP engelleme yeterli olduğuna karar vermiştir.

 Bu erken kazıma kararlar ve sorumluluk teorileri üniforma olmasa da, bu mahkemelerin bu tür sitelerin sahiplerine istenmeyen kullanımlar ticari sitelerde özel içeriği korumak için hazır olduklarını ortaya bir model göz ardı etmek zordur. Ancak, bu tür içerik için koruma derecesi yerleşmiş değildir ve raspa tarafından yapılan erişim türüne bağlıdır, bilgi miktarı erişilebilir ve kopyalanamaz, derecesi erişimi olumsuz sitesi sahibinin sistemi ve türleri ve etkileri böyle davranış üzerindeki yasaklar şekilde.[4]

Bu alanda yasa daha yerleşmiş olur iken, kişiler hakkında da bu tür eylem kullanımı ve diğer şartlar veya bildirimler yayınlanan veya site aracılığıyla sunulan koşullarını gözden tarafından yetkilendirilmiş olup olmadığını düşünmelisiniz kamu web sitesine erişmek için kazıma programları kullanılarak düşünürken. Cvent, Inc v bir 2010 kararında. Eventbrite, Inc Virginia doğu bölgesi için Amerika Birleşik Devletleri bölge mahkemesi, mahkeme kullanım koşulları bir browse için için kullanıcıların dikkatine getirdi gerektiğine hükmetti şal ​​sözleşmesi veya lisans uygulanmak üzere. Pennsylvania Doğu Bölgesi ABD Bölge Mahkemesi açılan bir 2014, yılında, e-ticaret sitesi QVC gerçek zamanlı fiyatlandırma verilerine QVC sitesinin Pinterest benzeri bir alışveriş toplayıcı Resultly en kazıma itiraz. QVC Resultly QVC perakende sitesi QVC için kayıp satış sonuçlanır iki gün çökmesine QVC sitesini neden (sözde Dakikada 36.000 isteklerine bazen dakikada QVC web sitesine 200-300 arama istekleri göndererek) "aşırı sürünerek" diye allges. QVC yaptığı şikayet davalı kaynak IP adresini maskelemek için web tarayıcısını gizlenmiş ve böylece hızlı bir şekilde sorunu tamir dan QVC engelledi iddia etmektedir. QVC QVC iddiaları Resultly neden oldu kendi web sitesi, kullanılamaması için tazminat istiyor çünkü bu özellikle ilginç kazıma durumdur.

Kullanım link şartları internet üzerindeki en siteleri gibi sayfanın altındaki sitenin tüm bağlantıları, içinde görüntülenen bu davanın döneminde davacının web sitesinde. Bu iktidar aşağıda açıklanan İrlandalı kararı çelişmektedir. Mahkeme ayrıca göz şal kısıtlamaları Düzgün Bilgisayar Enformasyon İşlemleri Yasası (UCITA )birçok ortak göz şal müteahhitlik uygulamaları konusunda lehine olduğuna inanıyordu -a üniforma hukuku Virginia'nın kabul görünümünde uygulanabilir olduğu davacının iddiasını reddetmiştir.[5]

Amerika Birleşik Devletleri dışında, 2006 yılı Şubat ayında, Danimarka Denizcilik ve Ticaret Mahkemesi (Kopenhag )Home.dk Danimarkalı yasa veya çakışmaması emlak sitesi portal sitesi OfiR.dk sistematik taranmasına, indeksleme ve derin bağlama hükmetti Avrupa Birliği direktifi veritabanı.[6]

2009 yılında Facebook bilinen bir web kazıyıcı karşı ilk telif takım elbise birini kazandı. Bu mahkemelerin internette olduğu gibi adil kullanım adlandırılan elimden doğrudan telif hakkı ihlali ve çok net parasal zararlar En son durumda olmak AP v erime suyundan oluşan, birlikte kazıma herhangi bir web kravat sayısız davalar için zemin hazırlamıştır.[7]

Şubat yargı konularında karmaşık 2.010 dava, İrlanda'nın Yüksek Mahkemesi içtihatlarını geliştirme inchoate durumunu gösteren bir karar verdi. Ryanair Ltd v Billigfluege.de GmbH şirketinin durumunda, İrlanda'nın Yüksek Mahkemesi yasal olarak bağlayıcı olmasını Ryanair " click- wrap " anlaşması hükmetti. ABD Bölge Mahkemesi Doğu Virginia Bölge ve Danimarka Denizcilik ve Ticaret Mahkemesi bu bulgular aksine, Sayın Adalet Michael Hanna Ryanair'ın hüküm ve koşullara köprü açıkça görünür oldu, ve o hükmetti üzerinde yükümlülüklerini de ortadan yerleştirerek kullanıcı bir sözleşme ilişkisi içermesi yeterlidir çevrimiçi hizmetlere erişmek amacıyla şartları ve koşulları kabul etmek. Karar İrlanda'nın Yargıtay'da temyiz aşamasındadır .I[8]

Avustralya, Spam Yasası 2003 haydutlar web hasat bazı formları, bu sadece e-posta adreslerine de geçerlidir rağmen [9][10]

 Kayda değer araçları

 Teknik önlemler botlara durdurmak için

Bir web sitesinin yöneticisi durdurmak veya bot yavaş çeşitli önlemler kullanabilirsiniz. Bazı teknikler şunlardır:

  •  Bir IP adresi ya elle ya da Geolocation ve DNSRBL gibi kriterlere göre engelleme. Bu aynı zamanda bu adrese gelen tüm tarama engeller. Web sitesinin sistem altında bırakabilecek herhangi bir web servis API devre dışı bırakılması. Botlar bazen (kullanıcı aracısı dizeleri kullanarak) ve (robots.txt kullanarak) bu temelde bloke edilebilir kim beyan; 'Googlebot' bir örnektir. Diğer botlar kendileri ve bir tarayıcı kullanarak bir insanın arasında hiçbir ayrım yapmak. Botlar aşırı trafik izleme tarafından bloke edilebilir. Botlar bazen bir kaptan gibi site erişen gerçek bir kişi olduğunu doğrulamak için araçları ile bloke edilebilir. Botlar bazen açıkça belli CAPTCHA kalıplarını kırmak için kodlanmış veya okumak ve CAPTCHA zorlukları gerçek zamanlı olarak cevap insan emeğini kullanan üçüncü taraf hizmetleri istihdam edebilir. Ticari anti-bot hizmetleri: Firmalar, anti-bot ve web siteleri için hizmet anti-kazıma sunuyoruz. Birkaç web uygulama güvenlik duvarları yanı sıra bot algılama yetenekleri sınırlıdır. Bir bal küpü veya başka bir yöntemle botlar yerlerinin otomatik tarayıcılarının IP adreslerini tespit etmek. Gizleme okuyucu kullanıcıları ekrana erişilebilirlik pahasına, telefon numaraları veya e-posta adresleri gibi verileri görüntülemek için CSS sprite kullanarak. Botlar bir bot ilk kurulumunda daha insani katılımını gerektirir önemli verileri ve navigasyon elemanları çevreleyen HTML / CSS küçük varyasyonları ekleme ve etkin bir hale getirebilir yapılırsa, hedef web sitesinin ön uç kod tutarlılık dayandıklarından nedeniyle kazıma işlemini otomatikleştirmek için azalmış yeteneği kazımak için çok zor bir web sitesi hedef.

Makaleler

Web Kazıma : Bilmeniz Wanted (ama sormak korktular) Her şey [11]

Teknikler

Web kazıma otomatik olarak World Wide Web üzerinden bilgi toplama işlemidir. Mevcut web kazıma çözümleri, ad-hoc, insan çabası gerektiren, tüm websitelerini yapılandırılmış verilere dönüştüren tam otomatik sistemler ve bazı sınırlamalar arasındadır.

  • İnsan kopyalaması ve yapıştırması: Bazen en iyi web kazıma teknolojisi bile insanın manuel incelemesini ve kopyalama ve yapıştırmalarının yerini alamaz ve web kazımaya karşı bir engel varsa bazen bu tek uygulanabilir çözüm olabilir.
  • Metin araması ve düzenli ifade eşleşmesi: Web sayfalarından bilgileri ayıklamak için basit ama güçlü bir yaklaşım olan UNIX'in grep komutuyla ya da programlama dillerinin (örneğin Perl veya Python) düzenli ifade eşleştirme tesislerine dayalı olabilir.
  • HTTP programlama: Statik ve dinamik web sayfaları soket programlama kullanarak uzak web sunucusuna HTTP isteklerini göndererek alınabilir.
  • HTML ayrıştırıcıları: Birçok web sitesi bir veritabanı gibi altta yatan yapısal bir kaynaktan dinamik olarak oluşturulan sayfaların büyük koleksiyonları olabilir. Aynı kategorideki veriler genellikle ortak bir komut dosyası veya şablona benzer sayfalar olarak kodlanmıştır. Veri madenciliğinde, bir program belirli bir bilgi kaynağındaki bu tür şablonları bulur, içeriği ayıklar ve sarıcı denilen ilişkisel forma çevrilir. Ayrıca, XQuery gibi bazı yarı yapılandırılmış veri sorgulama dilleri ile HTML ayrıştırılabilir ve sayfa içeriği dönüştürülmek için kullanılabilir.
  • DOM ayrıştırma: Programlar, Internet Explorer veya Mozilla gibi tam teşekküllü gömülü web tarayıcılarıyla istemci scriptleri tarafından oluşturulan dinamik içerikleri alabilir. Bu browser kontrolleri DOM ağacından sayfaları ayırabilir, herhangi bir program sayfalardan bu parçaları alabilir.
  • Web kazıma yazılımları: Bazı yazılım araçları özelleştirilebilir web kazıma çözümleri sunar. Bu yazılımlar sayfanın yapısını otomatik olarak tanıyabilir, elle web kazıma kodları yazma zorunluluğunu ortadan kaldıran arayüzler, içeriği çıkartmak ve dönüştürmek için bazı script fonksiyonları ve kazılmış içeriği yerel veritabanına kaydetmek için veritabanı arayüzleri sağlayabilir.
  • Dikey toplama platformları: Bazı şirketler web kazıma platformları geliştirmiştir. Bu platformlar, insan müdahalesi olmayan bazı dikeyler için çok sayıda "bot" üretir ve gözler. Hiçbir çalışma belirli siteler için yapılmaz. Hazırlık, tüm dikeyler için bilgi tabanının kurulması ve sonra platformun botları otomatik olarak oluşturulmasını içerir.
  • Bilgisayar görüşlü web sayfası analistleri: Bunlar makine öğrenimi ve bilgisayar görüşü kullanarak insan gibi yorumlanmış sayfa görsellerinden web sayfasındaki bilgileri görüntüler ve tanımlar.[1]

Tanınmış araçlar

Ayrıca bakınız

Kaynakça

  1. ^ a b Roush, Wade (25 Temmuz 2012). "Diffbot Is Using Computer Vision to Reinvent the Semantic Web". www.xconomy.com. 27 Nisan 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Mart 2013. 
  2. ^ "Ticketmaster Corp. v. Tickets.com, Inc." 20 Ağustos 2007. 28 Eylül 2007 tarihinde kaynağından arşivlendi. Erişim tarihi: 20 Ağustos 2007. 
  3. ^ "American Airlines, FareChase Settle Suit". The Free Library. 13 Haziran 2003. 5 Mart 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 26 Şubat 2012. 
  4. ^ Adler, Kenneth A. (29 Temmuz 2003). "Controversy Surrounds 'Screen Scrapers': Software Helps Users Access Web Sites But Activity by Competitors Comes Under Scrutiny". 11 Şubat 2011 tarihinde kaynağından arşivlendi. Erişim tarihi: 27 Ekim 2010. 
  5. ^ "Did Iqbal/Twombly Raise the Bar for Browsewrap Claims?" (PDF). 17 Eylül 2010. 23 Temmuz 2011 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 27 Ekim 2010. 
  6. ^ "UDSKRIFT AF SØ- & HANDELSRETTENS DOMBOG" (PDF). bvhd.dk. 24 Şubat 2006. 12 Ekim 2007 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 30 Mayıs 2007. 
  7. ^ "Is web scraping illegal depends on what the meaning of the word is is". 10 Ocak 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Ocak 2016. 
  8. ^ Matthews, Áine (Haziran 2010). "Intellectual Property: Website Terms of Use". Issue 26: June 2010. LK Shields Solicitors Update. s. 03. 24 Haziran 2012 tarihinde kaynağından arşivlendi. Erişim tarihi: 19 Nisan 2012. 
  9. ^ National Office for the Information Economy (Şubat 2004). "Spam Act 2003: An overview for business" (PDF). Australian Communications Authority. s. 6. 21 Mayıs 2009 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 9 Mart 2009. 
  10. ^ National Office for the Information Economy (Şubat 2004). "Spam Act 2003: A practical guide for business" (PDF). Australian Communications Authority. s. 20. 7 Nisan 2009 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 9 Mart 2009. 
  11. ^ "Web Scraping: Everything You Wanted to Know (but were afraid to ask)". Distil Networks. 22 Temmuz 2015. 7 Kasım 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 4 Kasım 2015.