Przyzwyczailiśmy się już do tego, że kasjerzy w dużych sklepach, badając swoich klientów, pytają ich o kod pocztowy. Mieliśmy jednak wątpliwości, jak zareagują uczestnicy naszego badania (realizowanego w czasie eventów kulturalnych) na prośbę o udostępnienie precyzyjnej informacji o miejscu zamieszkania. Zależało nam jednocześnie na posiadaniu bardziej szczegółowych danych, które pozwolą na prowadzenie analiz na poziomie co najmniej dzielnic miasta.
Z tego powodu wprowadziliśmy stopniowanie: jeśli nie jest to dla ciebie problemem, podaj kod pocztowy oraz punkt adresowy lub nazwę dzielnicy; jeśli nie znasz kodu, wpisz nazwę miejscowości. Zrezygnowaliśmy z pytania o województwo, by nie wydłużać i tak już czasochłonnego badania, prowadzonego zazwyczaj w niesprzyjających warunkach – np. na kilka minut przed rozpoczęciem spektaklu teatralnego w ciemnym foyer.
miejsce zamieszkania | przykładowe dane |
---|
Przyjęte rozwiązanie – zbierzmy możliwie dużo danych, nawet jeśli będą niekompletne i gorszej jakości – przysporzyło nam wielu problemów, podobnie jak praca z danymi z mediów społecznościowych. Ich użytkownicy samodzielnie deklarowali miejsce zamieszkania, wpisując np. niemieckie nazwy miejscowości i dzielnic (np. Kattowitz, Bogutschütz). Podczas czyszczenia danych z ankiet w pierwszej kolejności należało uporać się z następującymi problemami.
problem | przykładowe dane |
---|
Po wykonaniu szeregu automatycznych czynności i ręcznej korekcie błędnych nazw przeszliśmy do kolejnego etapu, w którym adresom lub nazwom miejscowości przyporządkowane zostaną współrzędne geograficzne, umożliwiające dalsze wizualizacje treści na mapach. W przypadku miejscowości innych niż Katowice nie interesowały nas szczegóły, takie jak dzielnica lub punkt adresowy, dlatego zastosowaliśmy dwa różne rozwiązania.
Do kodów innych niż katowickie przyporządkowaliśmy najpierw nazwy gmin, korzystając z bazy kodów pocztowych w Polsce. Małym miejscowościom, które nie posiadają osobnego kodu, przypisaliśmy nazwy gmin (np. Sarnów = Psary). Następnie, posługując się bazą współrzędnych geograficznych dla gmin, mogliśmy przypisać im geolokalizacje. Problemem na tym etapie były duplikujące się nazwy gmin w obrębie kraju. Np. każdemu rekordowi zawierającemu miejscowość Chrzanów przyporządkowane zostały dwie współrzędne: jedna dla miejscowości w województwie małopolskim, druga dla gminy w lubelskim.
W pierwszej kolejności uprościliśmy bazę poprzez rezygnację z wyodrębniania położonych obok siebie gmin o tej samej nazwie (np. gmina wiejska Siedlce i wyodrębnione miasto Siedlce). Następnie już po złączeniu baz zweryfikowaliśmy zduplikowane rekordy na podstawie kodów pocztowych. Dzięki nim wiedzieliśmy, że chodzi np. o Chrzanów w województwie małopolskim albo Olsztyn w warmińsko-mazurskim, a nie małą miejscowość o tej samej nazwie w województwie śląskim. Podobną metodę zastosowaliśmy przy przetwarzaniu danych ze statystyk stron na Facebooku, gdzie oprócz miejscowości znajduje się nazwa województwa.
Bardziej problematyczna byłaby sytuacja, w której dysponujemy tylko nazwą gminy, np. Bobrowniki. W niektórych przypadkach pomocna byłaby wiedza o kontekście, w jakim pozyskano dane. Jeśli pochodzą one z badania wydarzenia o lokalnym zasięgu, np. małego koncertu w pubie, bardziej prawdopodobne jest, że chodzi o Bobrowniki w województwie śląskim, a nie kujawsko-pomorskim. Takie założenie byłoby już jednak ryzykowne w odniesieniu do katowickiego Off Festivalu gromadzącego publiczność z całej Europy.
Inaczej przebiegała praca z adresami z Katowic, które posiadają dość gęstą siatkę kodów pocztowych. Tutaj mogliśmy skorzystać z bardziej precyzyjnej bazy danych, pozwalającej na powiązanie kodu – a nie jak wcześniej nazwy gminy – z precyzyjnie wyznaczonym obszarem w przestrzeni. Otrzymaliśmy dane o różnym stopniu szczegółowości, zazwyczaj były to różne kombinacje następujących elementów: kodu pocztowego, nazwy dzielnicy, ulicy, numeru budynku.
Oczywiście najbardziej komfortową sytuacją jest posiadanie konkretnego adresu wraz numerem budynku, jednak kody pocztowe również dostarczały szczegółowych informacji. To samo dotyczy dzielnic, przynajmniej dla pewnego rodzaju analiz, w których chcielibyśmy na przykład zbadać poziom uczestnictwa w wydarzeniach kulturalnych w poszczególnych częściach Katowic (czy mieszkańcy oddalonych od centrum Murcek są pozbawieni dostępu do kultury?). Problematyczne mogły stać się najdłuższe ulice w mieście, np. Kościuszki, biegnąca ze śródmieścia przez kilka dzielnic aż do granicy miasta z Mikołowem.
Ale nawet w przypadku punktów adresowych zawierających nazwę ulicy i numer domu nie obeszło się bez komplikacji. Z jednej strony mieliśmy do czynienia np. z nowymi adresami, których nie jeszcze ma w naszej bazie lub nieistniejącymi numerami (jak np. Dyrekcyjna 7 w centrum). Z drugiej problemem było łączenie pozyskanych adresów z naszą bazą współrzędnych geograficznych ze względu na różne formy zapisu nazw ulic, przede wszystkim tych składających się w wielu wyrazów, czyli głównie nazwisk, jak „Gen. Józefa Hallera” lub „Generała Józefa Zajączka”. Mieszkańcy tych ulic zazwyczaj posługują się samym nazwiskiem i w zdecydowanej większości przypadków wpisywali do ankiet jedynie ostatni człon nazwy, ew. skróconą postać „gen. Zajączka”. Aby rozwiązać ten problem, zastosowaliśmy algorytm, który łączy bazy według klucza składającego się najpierw z ostatnich dwóch (Kościuszki 23), ew. w razie konieczności trzech lub większej liczby członów (Tadeusza Kościuszki 23, Generała Józefa Zajączka 23).
Ostatnią czynnością jest sprawdzenie ewentualnych błędów i pustych wartości. Pomimo próby automatyzacji całego procesu przetwarzania danych, trudno uniknąć ręcznych uzupełnień i poprawek. Na szczęście przy niewielkiej liczbie kilku tysięcy punktów adresowych, wątpliwych rekordów było nie więcej niż kilkadziesiąt, więc ich weryfikacja nie zajęła wiele czasu.
Oczywiście pojawia się pytanie, czy nie dałoby się uniknąć powyższych operacji dzięki wykorzystaniu jednego z narzędzi sieciowych, umożliwiających automatyczne geokodowanie miejscowości i punktów adresowych?
Niestety, narzędzia takie jak Google Maps (testowane za pomocą Google Fusion), operując na niepełnych danych, nie dostarczają w pełni poprawnych rezultatów, szczególnie w przypadku lokalizacji geograficznej kodów pocztowych. Mimo że przejście powyższego procesu jest czasochłonne, pozwala na lepsze poznanie danych, dzięki czemu łatwiej wyłapać błędy, które mogłyby doprowadzić do niepożądanych konsekwencji w dalszym etapie analizy.
Opracowane w ten sposób dane posłużą nam do wykonania szeregu analiz przestrzennych katowickiego życia kulturalnego. Sprawdzimy m.in. zasięg działania poszczególnych instytucji, a także dystans, jaki pokonują uczestnicy w drodze na wydarzenia. Interesować będą nas zarówno relacje geograficzne na poziomie kraju, jak też bardziej szczegółowe zagadnienia dotyczące katowickich dzielnic.
Do wykonania opisanych powyżej operacji użyliśmy różnych ogólnodostępnych zbiorów danych.
Pierwszym z nich był Oficjalny Spis Pocztowych Numerów Adresowych, który można znaleźć na stronie internetowej Poczty Polskiej w formie pliku PDF. Potrzebowaliśmy bazy do edycji, dlatego dokument opracowaliśmy w postaci pliku CSV, zapisując w nim informacje o kodach pocztowych oraz nazwach gmin i województw. Takie rozwiązanie umożliwiało ich jednoznaczną identyfikację.
Druga baza zawierała poligony reprezentujące powierzchnie gmin. Dane pozyskaliśmy z Państwowego Rejestru Granic (PRG), udostępnionego przez Centralny Ośrodek Dokumentacji Geodezyjnej i Kartograficznej. W programie QGIS przygotowaliśmy zbiór centroidów poszczególnych regionów w układzie WGS84, który dodatkowo złączyliśmy z bazą kodów pocztowych dla całego kraju. Wszystkie punkty z kodami dla danego miasta posiadały tę samą lokalizację, co jest rozwiązaniem wystarczającym ze względu na skalę prowadzonych przez nas analiz geograficznych.
Na PRG oparte były również dwa kolejne zbiory. Dane dotyczące punktów adresowych wykorzystaliśmy bezpośrednio przy geokodowaniu szczegółowych informacji z ankiet, a także pośrednio jako materiał do przygotowania bazy obszarów kodów pocztowych w granicach Katowic. Drugą bazę uzyskaliśmy, tworząc diagram Woronoja dla tych punktów (podział powierzchni miasta na mniejsze tereny, położone najbliżej poszczególnych punktów) i łącząc powstałe w ten sposób obszary o identycznym kodzie. Na koniec stworzyliśmy zbiór z ich centroidami.