Jak liczymy auta czyli kilka słów o metodyce

  • Raporty

Czym jest CEP(iK)

Centralna Ewidencja Pojazdów (i Kierowców) jest ogromnym zbiorem danych, który zawiera szczegółowe informacje na temat każdego pojazdu zarejestrowanego w Polsce. Dane dostępne są publicznie w zanonimizowanej formie. Co to oznacza w praktyce? Możemy w publicznie dostępnym zbiorze znaleźć informacje o każdym pojeździe z dokładnością do gminy, w której został zarejestrowany, dokładnej dacie rejestracji i wielu innych danych na temat tego konkretnego egzemplarza pojazdu. Nie ma tam oczywiście danych osobowych właścicieli, co byłoby ewidentnie sprzeczne z RODO. Zbiór ten zawiera dodatkowo informacje na temat wszystkich osób posiadających uprawnienia do prowadzenia pojazdów, ale te są dostępne tylko dla odpowiednich służb. Patrz poprzednie zdanie o RODO 🙂

Dostęp do danych

Z rejestru CEPIK można pobrać dane na 2 sposoby: statystyki oraz dane surowe. Statystyki czyli dane zagregowane zawierają tabele z liczebnościami pojazdów w poszczególnych grupach. Dane surowe z kolei zawierają szczegółowe informacje o każdym pojeździe dokładnie tak jak zostało opisane w poprzednim punkcie. My zdecydowaliśmy się na zebranie wszystkich danych surowych czyli ponad 43 mln wpisów na przestrzeni ostatnich 30 lat:) Dlaczego tak sobie utrudniać, tworzyć potężną bazę danych, przetwarzać bardzo duże ilości informacji? Odpowiedź jest bardzo prosta, stawiamy na jakość przekazywanych przez nas informacji! CEPIK jest rejestrem tworzonym przez urzędników wprowadzających dane do systemu. Co za tym idzie w rejestrze pojawiają się błędy ludzkie, które nie zawsze łatwo znaleźć i uwzględnić w statystykach. Przetwarzając surowe dane jesteśmy w stanie wyczyścić je ze wszystkich uchybień, które znajdujemy.

Metodyka agregacji danych

Na potrzeby raportów i analiz dane z rejestru są przez nas agregowane. Z uwagi na możliwe błędy pojawiające się w danych oraz niespójności definicyjne, agregacja wymaga przyjęcia pewnych założeń, które mogą się różnić od prezentowanych przez inne podmioty analizujące dane motoryzacyjne. W celu maksymalizacji transparentności przedstawiamy szczegółowy opis przyjętej przez nas metodyki agregacji danych:

Samochód osobowy – pojazd oznaczony w atrybucie ‘rodzaj-pojazdu’ jako osobowy. Są modele pojazdów, które można zarejestrować jako osobowe lub jako ciężarowe. W opublikowanych raportach pokazujemy wyłącznie auta zarejestrowane jako osobowe.

Nowy – pojazd oznaczony w atrybucie ‘pochodzenie-pojazdu’ jako ‘NOWY ZAKUPIONY W KRAJU’ lub ‘NOWY IMPORT INDYW’ oraz nie starszy niż 4 lata w momencie rejestracji. Wiek auta na potrzeby klasyfikacji do Nowych wyliczony z daty pierwszej rejestracji w kraju oraz roku produkcji.

Używany Import – pojazd oznaczony w atrybucie ‘pochodzenie-pojazdu’ jako ‘UŻYW. IMPORT INDYW’ (lub ‘NOWY IMPORT INDYW’ starszy niż 4 lata).

Data rejestracji – oznaczenie w atrybucie ‘data-pierwszej-rejestracji-w-kraju’.

Województwo, powiat – oznaczenia w atrybutach ‘rejestracja-wojewodztwo’, ‘rejestracja-powiat’.

Marka, model – oznaczenia w atrybutach ‘marka’, ‘model’ przypisane do odpowiednich marek i modeli w słowniku pojazdów zbudowanym przez Price4Wheels. Zdarza się, że poszczególne wpisy w CEPiK mogą mieć błędy, nazwy potoczne lub zwykłe literówki w nazwach dlatego zdecydowaliśmy się na porównanie każdego rekordu ze słownikiem aut Price4Wheels. W przypadku gdy nie udało się przypisać nazwy marki lub modelu do danego pojazdu, w polu pojawi się wartość ‘INNY’.

Paliwo – oznaczenie w atrybucie ‘rodzaj-paliwa’ zagregowane do nazw podstawowych paliw: BENZYNA, DIESEL, ENERGIA ELEKTRYCZNA, LPG/CNG/LNG, POZOSTALE.

Korzystając z dokumentacji do API CEPiK możesz samodzielnie sprawdzić wszystkie pojęcia, do których odnosimy się w tym wpisie.

Leave a Reply

Your email address will not be published. Required fields are marked *