Visualizzazioni di New York City
NYC Visualizzazioni
Portare i dati aperti di NYC in vita con Python e Plotly
La piattaforma di dati aperti di New York City è una fonte incredibile di informazioni. Tutti i dati pubblici raccolti e generati dalla città sono obbligatoriamente resi disponibili tramite il portale, oltre ad essere gratuiti per l’uso pubblico.
I dataset vanno dal trasporto, all’alloggio, agli incidenti dei veicoli a motore, fino al censimento degli scoiattoli di Central Park e persino ai rapporti dei ranger del parco sugli incontri con tartarughe aggressive.
I dataset geografici, infrastrutturali e sociologici come questi rappresentano processi ed eventi del mondo reale. Anche se non hai alcuna connessione o interesse per NYC o le aree urbane in generale, ti danno la possibilità di lavorare con dati che assomigliano molto di più a quelli che incontrerai in un ruolo professionale rispetto a quelli come MNIST o i sopravvissuti del Titanic. Meglio ancora, sono quasi altrettanto facili da accedere.
Stiamo per mostrarti una dimostrazione di quanto sia facile utilizzare questi dataset e creare alcune visualizzazioni interessanti nel processo.
- Rice e IIT Kanpur annunciano i vincitori del premio di ricerca collaborativa
- L’importanza delle LLM specifiche del dominio
- Utilizzando LangChain e ChatGPT per spiegare il codice Python
Per mantenere i blocchi di codice il più concisi possibile, ecco i moduli richiesti per tutto il codice in questo post:
import foliumimport geopandas as gpdimport matplotlib.pyplot as pltimport numpy as npimport pandas as pdimport plotly.express as pximport plotly.graph_objects as goimport requestsfrom scipy.stats import gaussian_kdeimport seaborn as snsfrom shapely.geometry import Point, shape, box, Polygon
Assicurati di averli installati se vuoi replicare qualcosa tu stesso.
Impronte degli edifici
Dataset
Questo è uno dei miei dataset preferiti con cui giocare. I dati includono poligoni delle impronte, età e altezze per la maggior parte degli edifici di NYC.
Inizieremo con il recupero dei dati separato dal codice di visualizzazione poiché utilizziamo questo dataset per un paio di visualizzazioni diverse.
# Recupero dei datiapi_endpoint = 'https://data.cityofnewyork.us/resource/qb5r-6dgf.json'limit = 1000 # Numero di righe per richiestaoffset = 0 # Offset di partenzadata_frames = [] # Lista per contenere i chunk di dati# Ciclo per recuperare i dati in modo iterativo# while offset <= 100000: # rimuovi il commento da questa riga e commenta while True...