Back to Question Center
0

Semalt - hur man skrapar webbsidor?

1 answers:

Vacker soppa är ett Python-bibliotek som ofta används för att skrapa webbsidor genom att skapa ett parse-träd från XML och HTML-dokument. Webbskrapning, en teknik för att extrahera data från webbplatser och sidor, används i stor utsträckning inom dataanalys och hanteringsfält. I de flesta fall är Python programmeringsspråk en förutsättning för datavetenskap - monocrystalline solar cells price.

Python 3 har skrapverktyg och moduler du kan ansöka om ditt datahanteringsprojekt. För närvarande körs som Beautiful Soup 4, är denna modul kompatibel med både Python 3 och Python 2. 7. Vacker soppa 4-modul kan också skapa ett parse-träd för icke-sluten etikettsoppa. I den här handledningen lär du dig hur du skrapar sidan och skriver skrapad data till en CSV-fil.

Komma igång

För att komma igång, skapa en server eller lokalbaserad Python-kodningsmiljö på din dator. Du bör också installera Beautiful Soup and Requests-modulen på din maskin. Kunskap om att arbeta med båda modulerna är också en nödvändig förutsättning. Kännedom om HTML-märkning och struktur är också en fördel.

Förstå dina uppgifter

I detta sammanhang används verkliga data från National Gallery of Art för att hjälpa dig att förstå hur du använder Beautiful Soup 4. National Gallery of Art består av 120 000 stycken som görs av ungefär 13 000 artister. Konsten är baserad i Washington D. C, USA.

Web data extraktion med Beautiful Soup är inte så komplicerat. Om du till exempel fokuserar på bokstav Z markerar och noterar du förnamnet på listan. I detta fall är förnamnet Zabaglia, Niccola. För konsistens anger du antal sidor och namnet på den senaste artisten på den sidan.

Så här importerar du efterfrågningar och vackra soppbibliotek

För att importera bibliotek, aktivera Python 3 programmeringsmiljön. Kontrollera att du är i samma katalog med din programmeringsmiljö. Kör följande kommando för att komma igång. my_env / bin / activate.

Skapa en ny fil och börja importera Beautiful Soup and Requests-bibliotek. Förfrågningsbiblioteket tillåter dig att använda HTTP i dina Python-program i läsbara format. Vacker soppa, å andra sidan, arbetar för att skrapa sidor snabbt. Använd bs4 för att importera Vacker Soppa.

Så här samlar du och analyserar en webbsida

Använda förfrågningar samlar in URL till din första sida. URL på den första sidan kommer att tilldelas variabelsidan. Bygg ett BeautifulSoup-objekt från Förfrågningar och analysera objektet från Pythons parser.

I denna handledning är syftet att samla in länkar och artisters namn. Du kan till exempel samla artisternas datum och nationaliteter. För Windows-användare högerklickar du på artistens förnamn. Använd i så fall Zabaglia, Niccola. För Mac OS-användare klickar du på "CTRL" och klickar på namnet. Klicka på menyn "Inspektera element" som popup-fönster på skärmen för att komma åt verktygen för webbutvecklare. Skriv ut artistens namn för att göra Beautiful Soup snabbt ett träd.

Ta bort de nedre länkarna

För att ta bort de nedre länkarna på din webbsida, inspektera DOM genom att högerklicka på elementet. Du identifierar att länkarna ligger under en HTML-tabell. Använd "Vacker soppa" genom att använda "sönderdelningsmetoden" för att ta bort taggar från parse-trädet.

Hur man drar innehåll från en tagg

Du behöver inte skriva ut hela länktaggen, använd härlig soppa för att ta bort material från en tagg. Du kan också fånga webbadresser som är associerade med artisterna med hjälp av Beautiful Soup 4.

Fånga skrapad data till en CSV-fil

Med CSV-filen kan du lagra strukturerad data i en vanlig text, ett format som oftast används för datablad. Kunskap om hantering av vanliga textfiler i Python rekommenderas.

Web data extraktion används för att skrapa sidor och få information. Var uppmärksam på de webbplatser du är utvinningsinformation från. Vissa dynamiska webbplatser begränsar webbdatautvinning på deras webbplatser. Att skrapa sidan med Beautiful Soup och Python 3 är så enkelt.

December 22, 2017