Jump to content

ഡാറ്റ സ്ക്രാപ്പിംഗ്

വിക്കിപീഡിയ, ഒരു സ്വതന്ത്ര വിജ്ഞാനകോശം.

ഒരു കമ്പ്യൂട്ടർ പ്രോഗ്രാം മറ്റൊരു പ്രോഗ്രാമിൽ നിന്ന് വരുന്ന മനുഷ്യർക്ക് വായിക്കാൻ കഴിയുന്ന ഔട്ട്‌പുട്ടിൽ നിന്ന് ഡാറ്റ എക്‌സ്‌ട്രാക്റ്റുചെയ്യുന്ന ഒരു സാങ്കേതികവിദ്യയാണ് ഡാറ്റ സ്‌ക്രാപ്പിംഗ്.[1]

വിവരണം

[തിരുത്തുക]

സാധാരണഗതിയിൽ, പ്രോഗ്രാമുകൾ തമ്മിലുള്ള ഡാറ്റാ കൈമാറ്റം, ആളുകളല്ല, മറിച്ച് കമ്പ്യൂട്ടറുകൾ വഴിയുള്ള ഓട്ടോമേറ്റഡ് പ്രോസസ്സിംഗിന് അനുയോജ്യമായ ഡാറ്റാ ഘടനകൾ ഉപയോഗിച്ചാണ് നടത്തുന്നത്. അത്തരം ഇന്റർചേഞ്ച് ഫോർമാറ്റുകളും പ്രോട്ടോക്കോളുകളും സാധാരണയായി കർശനമായും ഘടനാപരമായും നന്നായി രേഖപ്പെടുത്തപ്പെട്ടതും എളുപ്പത്തിൽ പാഴ്‌സ് ചെയ്യാവന്നതും അവ്യക്തത കുറയ്ക്കുന്നതുമാണ്. മിക്കപ്പോഴും, ഈ ട്രാൻസ്മിഷനുകൾ മനുഷ്യർക്ക് വായിക്കാൻ കഴിയില്ല.[2]

അതിനാൽ, സാധാരണ പാഴ്‌സിംഗിൽ നിന്ന് ഡാറ്റ സ്‌ക്രാപ്പിംഗിനെ വേർതിരിക്കുന്ന പ്രധാന ഘടകം, സ്‌ക്രാപ്പ് ചെയ്യപ്പെടുന്ന ഔട്ട്‌പുട്ട് മറ്റൊരു പ്രോഗ്രാമിലേക്കുള്ള ഇൻപുട്ട് എന്നതിലുപരി ഉപയോക്താവിന് കാണാവുന്ന തരത്തിലുള്ളതാക്കുക എന്നതാണ്. അതിനാൽ, സൗകര്യപ്രദമായ പാഴ്‌സിംഗിനായി ഇത് സാധാരണയായി ഡോക്യുമെന്റ് ചെയ്യപ്പെടുകയോ സ്ട്രക്ചറാക്കുകയോ ചെയ്യുന്നില്ല(സ്ട്രക്ചറാക്കിയ ഡാറ്റ സാധാരണയായി നന്നായി നിർവചിക്കപ്പെട്ട പാറ്റേണിലാണ് അവതരിപ്പിക്കുന്നത്, അത് മനുഷ്യർക്കും യന്ത്രങ്ങൾക്കും മനസ്സിലാക്കുന്ന രീതിയിലുള്ളതാണ്, അത് പ്രോസസ്സ് ചെയ്യുന്നത് എളുപ്പമാക്കുന്നു). ഡാറ്റ സ്ക്രാപ്പിംഗിൽ പലപ്പോഴും ബൈനറി ഡാറ്റ (സാധാരണയായി ഇമേജുകൾ അല്ലെങ്കിൽ മൾട്ടിമീഡിയ ഡാറ്റ), ഡിസ്പ്ലേ ഫോർമാറ്റിംഗ്, അനാവശ്യ ലേബലുകൾ, അമിതമായ കമന്ററി, അപ്രസക്തമായ അല്ലെങ്കിൽ ഓട്ടോമേറ്റഡ് പ്രോസസ്സിംഗിന് തടസ്സം നിൽക്കുന്ന മറ്റ് വിവരങ്ങൾ എന്നിവയെ അവഗണിക്കുന്നു.

നിലവിലെ ഹാർഡ്‌വെയറുമായി പൊരുത്തപ്പെടുന്ന മറ്റൊരു മെക്കാനിസവും ഇല്ലാത്ത ഒരു ലെഗസി സിസ്റ്റത്തിന്റെ ഇന്റർഫേസ് അല്ലെങ്കിൽ കൂടുതൽ സൗകര്യപ്രദമായ എപിഐ നൽകാത്ത ഒരു മൂന്നാം കക്ഷി സിസ്റ്റത്തിലേക്ക് ഇന്റർഫേസ് ചെയ്യുന്നതിനാണ് ഡാറ്റ സ്‌ക്രാപ്പിംഗ് മിക്കപ്പോഴും ചെയ്യുന്നത്. രണ്ടാമത്തെ സാഹചര്യത്തിൽ, വർദ്ധിപ്പിച്ച സിസ്റ്റം ലോഡ്, പരസ്യ വരുമാന നഷ്ടം അല്ലെങ്കിൽ വിവരങ്ങൾ നൽകുന്ന കണ്ടന്റിന്റെ നിയന്ത്രണം നഷ്ടപ്പെടൽ തുടങ്ങിയ കാരണങ്ങളാൽ, മൂന്നാം കക്ഷി സിസ്റ്റത്തിന്റെ ഓപ്പറേറ്റർ പലപ്പോഴും സ്‌ക്രീൻ സ്‌ക്രാപ്പിംഗ് അനാവശ്യമായി സംഗതിയിട്ടാണ് കാണുന്നത്.

ഡാറ്റ സ്‌ക്രാപ്പിംഗ് പൊതുവെ അഡ്‌ ഹോക്ക്(ഘടനാപരമായതും സമഗ്രവുമായ ഒരു സ്ക്രാപ്പിംഗ് സൊല്യൂഷൻ നൽകാതെ തന്നെ ഒരു ഉറവിടത്തിൽ നിന്ന് നിർദ്ദിഷ്ട ഡാറ്റ വേഗത്തിൽ ശേഖരിക്കുന്നതിന്, മെച്ചപ്പെട്ടതോ ആസൂത്രിതമോ അല്ലാത്ത രീതിയിൽ സ്ക്രാപ്പിംഗ് നടത്തുന്ന ഒരു സാഹചര്യത്തെ "അഡ് ഹോക്ക്" എന്ന് പറയാം)[3], അല്ലെങ്കിൽ എളുപ്പമുള്ള സാങ്കേതികവിദ്യയായി കണക്കാക്കപ്പെടുന്നു, ഡാറ്റാ കൈമാറ്റത്തിനുള്ള മറ്റൊരു സംവിധാനവും ലഭ്യമല്ലാത്തപ്പോൾ പലപ്പോഴും "അവസാന ആശ്രയം" മാത്രമായി ഇത് ഉപയോഗിക്കുന്നു. ഉയർന്ന പ്രോഗ്രാമിംഗും പ്രോസസ്സിംഗ് ഓവർഹെഡും മാറ്റിനിർത്തിയാൽ, മനുഷ്യരുടെ ഉപഭോഗത്തിനായുള്ള ഔട്ട്പുട്ട് ഡിസ്പ്ലേകൾ പലപ്പോഴും അതിന്റെ ഘടനയിൽ മാറ്റം വരുത്തുന്നു. മനുഷ്യർക്ക് ഇത് എളുപ്പത്തിൽ നേരിടാൻ കഴിയും, പക്ഷേ ഒരു കമ്പ്യൂട്ടർ പ്രോഗ്രാം പരാജയപ്പെടും. കമ്പ്യൂട്ടറിൽ നിലവിലുള്ള എറർ കൈകാര്യം ചെയ്യുന്നതിനുള്ള ലോജിക്കിന്റെ ഗുണനിലവാരവും വ്യാപ്തിയും അനുസരിച്ച്, ഈ പരാജയം എറർ സന്ദേശങ്ങൾ, കറപ്റ്റഡ് ഔട്ട്പുട്ട് അല്ലെങ്കിൽ പ്രോഗ്രാം ക്രാഷുകൾ എന്നിവയ്ക്ക് കാരണമാകും.

സാങ്കേതിക വകഭേദങ്ങൾ

[തിരുത്തുക]

സ്ക്രീൻ സ്ക്രാപ്പിംഗ്

[തിരുത്തുക]
ഡാറ്റ ക്യാപ്‌ചർ പ്രോസസ്സ് ഇഷ്‌ടാനുസൃതമാക്കുന്നതിന് വേണ്ടിയുള്ള ഒരു സ്‌ക്രീൻ ശകലവും സ്‌ക്രീൻ സ്‌ക്രാപ്പിംഗ് ഇന്റർഫേസും (ചുവന്ന അമ്പടയാളമുള്ള നീല ബോക്‌സ്).

ഫിസിക്കൽ "ഡംബ് ടെർമിനൽ" ഐബിഎം 3270s ഉപയോഗം സാവധാനം കുറഞ്ഞുവരികയാണെങ്കിലും, പഴയ മെയിൻഫ്രെയിം ആപ്ലിക്കേഷനുകൾ കൂടുതൽ മികച്ച ആധുനിക വെബ്-അധിഷ്ഠിത ഇന്റർഫേസുകളാൽ മാറ്റിസ്ഥാപിക്കപ്പെടുന്നതിനാൽ, പഴയ ടെക്സ്റ്റ് അധിഷ്ഠിത സ്ക്രീനുകളിൽ നിന്ന് ഡാറ്റ ക്യാപ്ചർ ചെയ്യുന്നതിനും ഉപയോക്തൃ-സൗഹൃദ ഫോർമാറ്റിൽ അവതരിപ്പിക്കുന്നതിനും വേണ്ടി ചില ആപ്ലിക്കേഷനുകൾ ഇപ്പോഴും സ്ക്രീൻ സ്ക്രാപ്പിംഗിനെ ആശ്രയിക്കുന്നു.[4]

സ്‌ക്രീൻ സ്‌ക്രാപ്പിംഗ് എന്നത് കമ്പ്യൂട്ടർ സ്‌ക്രീനിന്റെ ചിത്രങ്ങൾ എടുക്കുന്നത് പോലെയാണ്, അതേസമയം വെബ് സ്‌ക്രാപ്പിംഗ് ഒരു വെബ്‌സൈറ്റിന്റെ അടിസ്ഥാന ഡാറ്റയിൽ നിന്ന് നേരിട്ട് വിവരങ്ങൾ വായിക്കുന്നതും ശേഖരിക്കുന്നതും പോലെയാണ്. സ്‌ക്രീൻ സ്‌ക്രാപ്പിംഗ് ചിത്രങ്ങളിലും ദൃശ്യങ്ങളിലും ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു, അതേസമയം വെബ് സ്‌ക്രാപ്പിംഗ് ഒരു വെബ്‌സൈറ്റിന്റെ കോഡിൽ നിന്ന് യഥാർത്ഥ വാക്കുകളും അക്കങ്ങളും ഉപയോഗിക്കുന്നു.

യഥാർത്ഥത്തിൽ, ഒരു കമ്പ്യൂട്ടർ ഡിസ്പ്ലേ ടെർമിനലിന്റെ സ്ക്രീനിൽ നിന്ന് ടെക്സ്റ്റ് ഡാറ്റ വായിക്കുന്ന രീതിയെയാണ് സ്ക്രീൻ സ്ക്രാപ്പിംഗിനെ പരാമർശിക്കുന്നത്. അക്കാലത്ത്, സ്‌ക്രീൻ സ്‌ക്രാപ്പിംഗ് ചെയ്യുന്നതിന്, ഒരു കമ്പ്യൂട്ടറിന്റെ മെമ്മറിയിലേക്ക് ഒരു പ്രത്യേക വാതിലിലൂടെ നോക്കുന്നതോ ഒരു കമ്പ്യൂട്ടറിന്റെ ഔട്ട്‌പുട്ടിനെ മറ്റൊന്നിന്റെ ഇൻപുട്ടിലേക്ക് ബന്ധിപ്പിക്കുന്നതോ പോലെയായിരുന്നു അത്, അതിനാൽ രണ്ടാമത്തെ കമ്പ്യൂട്ടറിന് ആദ്യത്തെ കമ്പ്യൂട്ടറിന്റെ സ്‌ക്രീനിൽ എന്താണെ് ഉള്ളതെന്ന് "കാണാൻ" കഴിയും. സ്‌ക്രീൻ സ്‌ക്രാപ്പിംഗ് എന്ന പദം സാധാരണയായി ഡാറ്റയുടെ ബൈഡിറക്ഷണൽ(bidirectional) കൈമാറ്റത്തെ സൂചിപ്പിക്കാൻ ഉപയോഗിക്കുന്നു. കൺട്രോളിംഗ് പ്രോഗ്രാം ഉപയോക്തൃ ഇന്റർഫേസിലൂടെ നാവിഗേറ്റ് ചെയ്യുന്ന ലളിതമായ സന്ദർഭങ്ങളോ അല്ലെങ്കിൽ കൺട്രോൾ ചെയ്യുന്ന പ്രോഗ്രാം ഒരു മനുഷ്യന് ഉപയോഗിക്കാൻ പാകത്തിന് ഒരു ഇന്റർഫേസിലേക്ക് ഡാറ്റ നൽകുന്നതിന്റെ സങ്കീർണ്ണമായ സാഹചര്യങ്ങളോ ആകാം ഇത്.

അവലംബം

[തിരുത്തുക]
  1. "What is data scrapping?". Retrieved 17 Aug 2023.
  2. "How to use datascrapping?". Retrieved 17 Aug 2023.
  3. "Adhoc datascrapping". Retrieved 7 Apr 2018.
  4. "Back in the 1990s.. 2002 ... 2016 ... still, according to Chase Bank, a major issue. Ron Lieber (May 7, 2016). "Jamie Dimon Wants to Protect You From Innovative Start-Ups". The New York Times.