Tämä artikkeli on julkaistu osanaData Science Blogathon
Johdanto
Ilman dataa kukaan ei voi suorittaa datatiedeprojektia; ja et voi sanoa datatiedettä ilman dataa. Yleensä monissa projekteissa ML-mallien analysointiin ja kehittämiseen käyttämämme tiedot tallennetaan tietokantaan. Saatamme kerätä tietoja tietyiltä verkkosivuilta tietystä tuotteesta tai sosiaalisesta mediasta löytääksemme malleja tai suorittaaksemme datan mielipideanalyysin. Riippumatta siitä, miksi keräämme tietoja tai miten aiomme käyttää sitä, tiedon kerääminen verkosta – web-kaappaus – on tehtävä, joka voi olla melko työlästä, mutta meidän on kerättävä dataa saavuttaaksemme projektimme tavoitteet.
Tietojen tutkijana verkkoraapiminen on yksi tärkeimmistä taidoista, jotka sinun on hallittava, ja sinun on etsittävä hyödyllistä tietoa, kerättävä ja esikäsiteltävä tietoja, jotta tulokset ovat merkityksellisiä ja tarkkoja.
Ennen kuin sukeltaamme työkaluihin, jotka voivat auttaa tietojen poiminnassa, meidän on vahvistettava, että tämä toiminta on laillista, koska verkon kaapiminen on ollut harmaa lakialue. Yhdysvaltain tuomioistuin laillisti täysin julkisesti saatavilla olevan datan verkkoraapimisen vuonna 2020. Se tarkoittaa, että jos löysit tietoa verkosta (kuten Wiki-artikkeleita), tietojen kaapiminen on laillista.
Kuitenkin, kun teet sen, varmista:
- Että et käytä tai julkaise tietoja uudelleen tavalla, joka loukkaa tekijänoikeuksia.
- Että noudatat kaavittavan verkkosivuston käyttöehtoja.
- Että sinulla on kohtuullinen indeksointinopeus.
- Että et yritä poimia verkkosivuston yksityisiä osia.
Niin kauan kuin et riko yllä olevia ehtoja, verkkokaappauksesi on laillista.
Luulen, että muutamat teistä ovat saattaneet käyttää BeautifulSoupia ja pyyntöjä kerätä tietoja ja pandat analysoidakseen niitä projekteja varten. Tämä viesti antaa sinulle viisi web-kaappaustyökalua, jotka eivät sisällä BeautifulSoupia. Se on ilmainen käyttää ja kerätä tietoja tulevaa projektia varten.
1.Yleinen indeksointi
Creator of Common Crawl loi tämän työkalun, koska he olettavat, että kaikilla pitäisi olla mahdollisuus tutkia ja analysoida ympärillään olevia tietoja ja löytää hyödyllisiä oivalluksia. He toimittavat vain suurille organisaatioille ja tutkimuslaitoksille avoimia korkealaatuisia tietoja kaikille uteliaille mielelle ilmaiseksi kannustaakseen heidän avoimen lähdekoodin uskomuksiaan.
Voit käyttää tätä työkalua ilman huolta maksuista tai muista taloudellisista vaikeuksista. Jos olet opiskelija, aloittelija sukeltamassa tietotieteeseen tai vain innokas henkilö, joka rakastaa oivalluksia ja uusien trendien löytämistä, tämä työkalu on hyödyllinen. Ne tuovat raakaa web-sivudataa ja sanapoimintoja saataville avoimina tietojoukkoina. Se tarjoaa myös resursseja ohjaajille, jotka opettavat tietojen analysointia ja apua ei-koodipohjaisissa käyttötapauksissa.
Käy läpiverkkosivustosaadaksesi lisätietoja tietojoukkojen käytöstä ja tavoista raaputtaa tietoja.
2.Crawly
Crawly on toinen vaihtoehto, varsinkin jos sinun tarvitsee vain poimia yksinkertaisia tietoja verkkosivustolta tai jos haluat poimia tietoja CSV-muodossa, jotta voit tarkastella sitä kirjoittamatta mitään koodia. Käyttäjän on syötettävä URL-osoite, sähköpostitunnus lähettääkseen poimitut tiedot, vaadittujen tietojen muoto (valitse CSV tai JSON), ja voila, kerätyt tiedot ovat postilaatikossasi käytettäväksi.
Voidaan käyttää JSON-tietoja ja analysoida sitä Pandasin ja Matplotlibin tai minkä tahansa muun ohjelmointikielen avulla. Jos olet aloittelija tietotieteessä ja verkkokaappauksessa, et ohjelmoija, tämä on hyvä ja sillä on rajoituksensa. Rajoitettu joukko HTML-tageja, mukaan lukien otsikko, tekijä, kuvan URL-osoite ja julkaisija, voidaan purkaa.
Kun olet avannut indeksoitavan verkkosivuston, kirjoita kaavittava URL-osoite, valitse tietojen muoto ja sähköpostiosoitteesi vastaanottaaksesi tiedot. Tarkista tiedot postilaatikostasi.
3.Sisällön sieppaaja
Content grabber on joustava työkalu, jos haluat kaapata verkkosivua etkä halua määrittää muita parametreja, käyttäjä voi suorittaa yksinkertaisen graafisen käyttöliittymänsä avulla. Silti se antaa mahdollisuuden mukauttaa louhintaparametreja täyden hallinnan.
Käyttäjä voi ajoittaa tietojen haun automaattisesti Webistä, on yksi sen eduista. Nykyään me kaikki tiedämme, että verkkosivuja päivitetään säännöllisesti, joten säännöllinen sisällön poimiminen olisi hyödyllistä.
Se tarjoaa eri muotoja purettuja tietoja, kuten CSV, JSON to SQL Server tai MySQL.
Nopea esimerkki tietojen raapumisesta
Tämän työkalun avulla voit selata verkkosivustoa visuaalisesti ja napsauttaa tietoelementtejä siinä järjestyksessä, jossa haluat ne kerätä. Se tunnistaa automaattisesti oikean toimintotyypin ja antaa oletusnimet jokaiselle komennolle, kun se luo agentin sinulle määritettyjen sisältökohteiden perusteella.

Tämä työkalu on kokoelma komentoja, jotka suoritetaan järjestyksessä loppuun asti. Suoritusjärjestys päivitetään Agent Explorer -paneelissa. Voidaan käyttää konfigurointiagentin komentopaneelia mukauttaaksesi komentoa tiettyjen tietojen vaatimuksen perusteella. Käyttäjät voivat myös lisätä uusia komentoja.
4.ParseHub
ParseHub on tehokas web-kaappaustyökalu, jota kuka tahansa voi käyttää ilmaiseksi. Se tarjoaa turvallisen ja tarkan tiedon poiminnan yhdellä napsautuksella. Käyttäjät voivat myös asettaa kaavintaaikoja pitääkseen jäännöksensä merkityksellisinä.
Yksi sen vahvuuksista on, että se pystyy romuttamaan monimutkaisemmatkin verkkosivut vaivattomasti. Käyttäjä voi määrittää ohjeita, kuten hakulomakkeita, kirjautua verkkosivuille ja napsauttaa karttoja tai kuvia tietojen keräämistä varten.
Käyttäjät voivat myös syöttää erilaisia linkkejä ja avainsanoja, joista se voi poimia oleellisia tietoja sekunneissa. Lopuksi REST API:n avulla voidaan ladata puretut tiedot analysoitavaksi joko CSV- tai JSON-muodossa. Käyttäjät voivat myös viedä kerätyt tiedot Google-taulukkona tai taulukkona.
Esimerkki verkkokauppasivuston kaapimisesta
Kun olet suorittanut asennuksen, avaa uusi projekti ParseHubissa, käytä verkkokaupan URL-osoitetta ja sivu hahmonnetaan sovelluksessa.
- Napsauta sivun ensimmäisen tuloksen tuotteen nimeä, kun sivusto on ladattu. Kun valitset tuotteen, se muuttuu vihreäksi sen merkiksi, että se on valittu.

- Keltaista käytetään korostamaan muut tuotenimet. Valitse luettelosta toinen vaihtoehto. Vihreää käytetään nyt kaikkien kohteiden korostamiseen.

- Nimeä valintasi uudelleen "tuotteeksi" vasemmassa sivupalkissa. Nyt näet ParseHubin poimiman tuotteen nimen ja URL-osoitteen.

- Napsauta PLUS(+) -merkkiä tuotevalikoiman vieressä vasemmassa sivupalkissa ja valitse Suhteellinen valinta -komento.
- Napsauta sivun ensimmäistä tuotteen nimeä ja sen jälkeen tuotteen hintaa Suhteellinen valinta -komennolla. Näkyviin tulee nuoli, joka yhdistää kaksi vaihtoehtoa. Tämä vaihe on toistettava useita kertoja, jotta Parsehub opetetaan purettavaksi.

- Toista edellinen vaihe poimiaksesi myös istuvuuden ja tuotekuvan. Muista nimetä uudet valinnat uudelleen asianmukaisesti.
Projektin suorittaminen ja vieminen
Nyt kun olemme saaneet projektin asetukset valmiiksi, on aika suorittaa raaputustyömme.
Suorita kaappaus napsauttamalla Hae tiedot -painiketta vasemmassa sivupalkissa ja sitten Suorita-painiketta. Suuremmissa projekteissa suosittelemme suorittamaan testiajon varmistaaksesi, että tietosi on muotoiltu oikein.

5.Scrapingbee
Se on viimeinen kaavinta työkalu luettelossa. Siinä on web-kaappaussovellusliittymä, joka pystyy käsittelemään monimutkaisimmatkin Javascript-sivut ja muuntaa ne raaka-HTML-muotoon käyttäjien käytettäväksi. Se tarjoaa myös erityisen sovellusliittymän verkkosivustojen kaappaamiseen Google-haun avulla.
Voimme käyttää tätä työkalua jollakin kolmesta tavasta:
- Yleinen Web Scraping, esimerkiksi asiakasarvostelujen tai osakekurssien poimiminen.
- Hakukoneen tulossivu, jota käytetään avainsanojen seurantaan tai hakukoneoptimointiin.
- Yhteystietojen tai sosiaalisen median tietojen poimimiseen sisältyy Growth Hacking.
Tämä työkalu tarjoaa ilmaisen suunnitelman, joka sisältää 1000 krediittiä ja maksullisia suunnitelmia rajoittamattomaan käyttöön.
Esittely Scrapingbee API:n käytöstä
Rekisteröidy ilmaiseen suunnitelmaan ScrapingBee-verkkosivustolla ja saat 1000 ilmaista API-pyyntöä, joiden pitäisi riittää tämän API:n oppimiseen ja testaamiseen.
Siirry nyt kojelautaan ja kopioi API-avain, jota tarvitsemme myöhemmin tässä oppaassa. ScrapingBee tarjoaa nyt monikielisen tuen, jonka avulla voit käyttää API-avainta suoraan sovelluksissasi.
Koska Scaping Bee tukee REST-sovellusliittymiä, se sopii minkä tahansa ohjelmointikielen kanssa, mukaan lukien CURL, Python, NodeJS, Java, PHP ja Go. Lisää kaapimista varten käytämme Python- ja Request-kehystä sekä BeautifulSoupia. Asenna ne käyttämällä PIP:tä seuraavasti:
# Python Requests -kirjaston asentamiseen:pip install requests# Tarvittavat lisämoduulit:pip install BeautifulSoup
Käytä alla olevaa koodia käynnistääksesi ScrapingBee web API. Teemme Request-kutsun parametreilla URL ja API-avain, ja API vastaa kohde-URL-osoitteen HTML-sisällöllä.
import requestsdef get_data(): vastaus = requests.get( url="https://app.scrapingbee.com/api/v1/", params={ "api_key": "INSERT-YOUR-API-KEY", "url" ": "https://example.com/", #website to scrape }, ) print('HTTP Status Code: ', response.status_code) print('HTTP Response Body: ', response.content)get_data()
Paina Suorita nähdäksesi tulos:
Lisäämällä kaunistuskoodin voimme tehdä tästä tulosteesta luettavamman BeautifulSoupin avulla.
Koodaus
Voit myös käyttää urllib.parsea salaamaan URL-osoitteen, jonka haluat kaapata alla olevan kuvan mukaisesti:
tuonti urllib.parseencoded_url = urllib.parse.quote("raavittava URL-osoite")
Johtopäätös
Tietojen kerääminen projekteja varten on tylsin vaihe ja vähiten hauskaa. Tämä tehtävä voi olla aikaa vievä, ja jos työskentelet yrityksessä tai freelancerina, tiesit, että aika on rahaa, ja jos on merkittävin tapa tehdä tehtävä, käytä sitä paremmin. Hyvä uutinen on, että verkon kaapimisen ei tarvitse olla tylsää, koska oikean työkalun käyttäminen voi auttaa säästämään paljon aikaa, rahaa ja vaivaa. Nämä työkalut voivat olla hyödyllisiä analyytikoille tai ihmisille, joilla ei ole koodaustietoa. Ennen kuin valitset kaavittavan työkalun, on otettava huomioon muutamia tekijöitä, kuten API-integraatio ja laajamittaisen kaapimisen laajennettavuus. Tässä artikkelissa esiteltiin hyödyllisiä työkaluja erilaisiin tiedonkeruutehtäviin, joista voit valita sellaisen, joka tekee tiedonkeruusta helppoa.
Toivon, että tämä artikkeli on hyödyllinen. Kiitos.
Tässä artikkelissa näkyvät mediat eivät ole Analytics Vidhyan omistuksessa, ja niitä käytetään tekijän harkinnan mukaan.