In deze opdracht ga je werken met een dataset die informatie bevat over COVID-19 gevallen wereldwijd. Het doel is om met behulp van de pandas library in Python deze dataset te analyseren en een rapport te maken waarin je je bevindingen presenteert. Je zult verschillende aspecten van de data onderzoeken en antwoord geven op een reeks onderzoeksvragen. Je maakt gebruik van pandas om de data in te laden, te manipuleren en te analyseren. Uiteindelijk schrijf je een kort rapport in Microsoft Word waarin je je analyses en inzichten presenteert.
Je gebruikt in dit project het bestand covid.csv
1. Dataset inlezen en verkennen:
- Importeer de pandas library en lees de COVID-19 dataset in met
pd.read_csv()
.
- Verken de data door bijvoorbeeld de eerste paar rijen te bekijken met
head()
, de vorm van de data met shape()
, en bekijk de kolomnamen en types van de kolommen.
- Zorg ervoor dat je de dataset goed begrijpt voordat je begint met analyseren.
2. Data schoonmaken
- Controleer op ontbrekende waarden met
isnull()
en bepaal of en hoe je deze waarden gaat verwerken.
- Controleer of de types van de kolommen correct zijn (bijvoorbeeld datums moeten als datumtype worden behandeld). Zet de datums om met
pd.to_datetime()
als dat nodig is.
3. Data analyseren
- Beantwoord de onderzoeksvragen die bij het project horen door gebruik te maken van pandas-functies zoals
groupby()
, sum()
, mean()
, agg()
, en vergelijkingen op dataframes.
- Maak visualisaties van de data met behulp van matplotlib of pandas plot methodes om bepaalde patronen of trends beter te begrijpen. Dit kan bijvoorbeeld een staafdiagram zijn voor het aantal bevestigde gevallen per land of een lijngrafiek voor nieuwe sterfgevallen in een bepaalde regio.
4. Resultaten presenteren
- Gebruik de antwoorden op de onderzoeksvragen om een gestructureerd rapport te schrijven in Microsoft Word. Je rapport moet de volgende onderdelen bevatten:
- Inleiding: Geef een korte beschrijving van de dataset en het doel van het project.
- Methodologie: Beschrijf hoe je de data hebt ingelezen en geanalyseerd. Vermeld hier ook eventuele data schoonmaak en hoe je bepaalde analyses hebt uitgevoerd.
- Resultaten: Presenteer je belangrijkste bevindingen. Gebruik tabellen en grafieken om je antwoorden te ondersteunen.
- Conclusie: Vat de belangrijkste inzichten samen en geef eventueel aanbevelingen voor verdere analyse.
5. Rapport inleveren
- Lever het rapport in als een Word-document waarin je de code, grafieken en analyses duidelijk hebt uitgelegd.
- Voeg de Python-code toe in een apart Python-bestand of als bijlage in je rapport.
- Gebruik
describe()
om snel basisstatistieken van de data te krijgen.
- Met
groupby()
kun je data groeperen op basis van een bepaalde kolom, bijvoorbeeld landen of regio’s, en vervolgens aggregaties uitvoeren zoals som of gemiddelde.
- Met
loc[]
en iloc[]
kun je specifieke rijen of kolommen selecteren op basis van naam of index.
- Maak gebruik van
plot()
om grafieken te genereren voor visualisatie van de data.
Epidemiologische vragen
- Wat is het sterftepercentage per land?
- Bereken het percentage sterfgevallen ten opzichte van het totale aantal bevestigde gevallen per land. Dit geeft inzicht in hoe dodelijk het virus in verschillende landen is geweest.
- Wat is de verdeling van nieuwe gevallen (New cases) in verschillende WHO-regio’s?
- Bekijk hoe het aantal nieuwe gevallen zich verdeelt over de verschillende regio’s (bijv. Afrika, Europa, Amerika).
- Hoe verschilt het aantal actieve gevallen (Active) tussen verschillende landen?
- Analyseer hoeveel actieve gevallen er nog zijn in verschillende landen om de verspreiding en de status van de pandemie te beoordelen. Je kiest zelf welke landen je wil vergelijken.
Trends en vergelijkingen
- Welke landen hadden de meeste en minste nieuwe gevallen op een bepaalde datum?
- Identificeer de landen die op een specifieke datum (bijv. 25 april 2020) de 5 meeste en 5 minste nieuwe besmettingen hebben gerapporteerd.
- Hoe verschilt het herstelpercentage (Recovered/Confirmed) tussen WHO regio’s?
- Dit kan inzicht geven in de zorgcapaciteit of de tijdigheid van interventies in verschillende regios.
- Welke landen rapporteren nul nieuwe gevallen of sterfgevallen?
- Dit kan interessant zijn om te zien welke landen op een specifieke datum geen nieuwe gevallen of sterfgevallen hadden, wat een indicator kan zijn van een mogelijke controle over het virus.
Geografische patronen
- Wat zijn de verschillen in het aantal bevestigde gevallen tussen verschillende continenten of WHO-regio’s?
- Analyseer of bepaalde regio’s, zoals Europa of Afrika, meer of minder bevestigde gevallen hebben.
- Zijn er patronen te herkennen in de verspreiding van COVID-19 in landen met een vergelijkbare bevolkingsgrootte of geografie?
- Vergelijk landen zoals Bolivia en Botswana om te zien of er gelijkenissen zijn in de manier waarop COVID-19 zich verspreidt.
Relatie met nieuwe gevallen en sterfgevallen
- Hoe correleren nieuwe gevallen met nieuwe sterfgevallen in verschillende landen?
- Analyseer of landen met een hoog aantal nieuwe gevallen ook een hoog aantal nieuwe sterfgevallen rapporteren.
- Is er een relatie tussen het aantal actieve gevallen en het aantal nieuwe herstelde patiënten (New recovered)?
- Dit zou kunnen helpen om te zien hoe effectief landen zijn in het genezen van hun actieve gevallen.
Je werk wordt beoordeeld op de volgende punten:
- Correctheid van de analyses (40%):
- Heb je de juiste pandas-functies gebruikt om de vragen te beantwoorden?
- Heb je de data correct geïnterpreteerd en geanalyseerd?
- Netheid van de code (20%):
- Is je code goed georganiseerd, leesbaar, en voorzien van commentaar waar nodig?
- Gebruik je efficiënte pandas-methoden om de analyse uit te voeren?
- Presentatie van de resultaten (30%):
- Heb je je resultaten duidelijk en gestructureerd gepresenteerd in het rapport?
- Heb je je bevindingen ondersteund met relevante grafieken en tabellen?
- Compleetheid van het rapport (10%):
- Bevat je rapport alle vereiste onderdelen, zoals een inleiding, methodologie, resultaten en conclusie?
- Zijn de Python-code en de resultaten correct verwerkt in het rapport?