Pod względem logistycznym nasze badanie uczestników wydarzeń kulturalnych w Katowicach jest dużym wyzwaniem. Zaledwie trzy osoby z zespołu koordynują pracę kilkunastu ankieterów, których zadaniem jest pozyskanie kilku tysięcy odpowiedzi od uczestników kilkudziesięciu różnych wydarzeń (cząstkowe wyniki można zobaczyć tutaj). Oprócz uniwersalnych pytań powracających przy okazji każdego wydarzenia, w ankietach znajdują się też kwestie dotyczące konkretnego badania, na przykład tego czy publiczność Silesian Jazz Festival uczestniczy również w innych katowickich festiwalach jazzowych.
Ankieta
Jakość wyników jest odwrotnie proporcjonalna do stopnia skomplikowania ankiety: rozbudowane pytania wymagają więcej czasu i uwagi uczestników badania. Z tego powodu stworzenie czytelnego projektu graficznego ankiety było dodatkowym wyzwaniem. Jak pomieścić na jednej kartce wszystkie pytania w taki sposób, by nie przytłaczały nadmiarem treści badanych, a jednocześnie były jednoznaczne i łatwe do odczytania? Należy wziąć w tym miejscu pod uwagę odbiorców w różnym wieku, np. starsze osoby bez okularów do czytania, a także miejsce badania, jak choćby ciasne foyer z nastrojowym oświetleniem. Podczas pierwszych kilku wydarzeń obserwowaliśmy, jak uczestnicy korzystają z ankiety, wprowadzając za każdym razem drobne usprawnienia.
Formularz / arkusz kalkulacyjny
Żeby ułatwić proces przenoszenia danych z ankiet papierowych do arkusza kalkulacyjnego, używamy Formularzy Google. Dzięki wykorzystaniu Arkuszy Google, dane wprowadzane jednocześnie przez kilka osób od razu trafiają do jednego pliku. Łatwiej w ten sposób unikać błędów przy kopiowaniu i kontrolować spójność wprowadzanych treści. Jeszcze w arkuszu kalkulacyjnym wykonujemy podstawowe operacje: usuwamy niepotrzebne kolumny lub zmieniamy ich nazwy, ale główny proces czyszczenia danych odbywa się w aplikacji OpenRefine.
OpenRefine
Ta stosunkowo prosta w obsłudze aplikacja umożliwia wykonywanie zadań, które w Dokumentach Google byłyby zbyt pracochłonne lub wręcz niewykonalne. Jednocześnie praca w OpenRefine jest znacznie łatwiejsza niż pisanie dedykowanych skryptów – dzięki temu jest to świetne narzędzie do rozwiązywania specyficznych problemów dotyczących konkretnych porcji danych. Dla przykładu, studenci lub absolwenci Śląskiego Uniwersytetu Medycznego wprowadzali do ankiet nazwę swojej uczelni na wiele sposobów: Śląski Uniwersytet Medyczny, Slaski Uniwersytet Medyczny, Śląski Uniwersytet Medyczny w Katowicach, ŚLĄSKI UNIWERSYTET MEDYCZNY, ŚUM, SUM, Śląska Akademia Medyczna etc.
Algorytmy OpenRefine wskazują podobieństwa między różnymi zapisami, a pozostałym, nierozpoznanym frazom można za pomocą kilku kliknięć przyporządkować pożądane brzmienie. To samo dotyczy innych zmiennych: kierunku studiów, nazw miast i dzielnic itd. Aplikacja rozpoznaje ponadto liczby i daty, dzieli wartości w kolumnach, umożliwia szybkie filtrowanie danych i wykonuje automatycznie lub półautomatycznie dziesiątki innych przydatnych na tym etapie pracy czynności, np. usuwa niepotrzebne znaki z pól tekstowych. Po sprawdzeniu spójności danych eksportujemy je do pliku tekstowego csv, czyli najbardziej uniwersalnego formatu dla danych tabelarycznych, który jest rozpoznawany przez wszystkie aplikacje stosowane na dalszym etapach analizy i wizualizacji.
CSV
Zakładamy, że z danych zawartych w pliku skorzystają dwie grupy użytkowników. Do pierwszej z nich należą biegli programistycznie analitycy, którzy nie będą mieli problemów z ich odczytaniem (dla osób pracujących w języku R przygotowaliśmy starter kit w postaci skryptu, który pobiera z serwera aktualną wersję bazy i przygotowuje ramkę danych w odpowiednich formatach, pozwalającą na natychmiastowe rozpoczęcie własnych analiz). Drugą grupę stanowią badacze, dziennikarze lub komentatorzy, którzy niekoniecznie potrafią programować, ale zechcą rzucić okiem na dane, ewentualnie wykonają proste obliczenia lub wizualizacje. W tym celu dobrze sprawdzi się którykolwiek arkusz kalkulacyjny, a nawet prosta aplikacja online WTFcsv, pozwalająca natychmiastowo podejrzeć zawartość pliku. Można też pokusić się o wykorzystanie nieco bardziej zaawansowanych, ale wciąż niewymagających umiejętności programistycznych narzędzi, takich jak Exploratory (w osobnym poście opiszemy łatwe w obsłudze narzędzia do automatycznej wizualizacji danych online).
Tabular Data Package
W przypadku plików w formacie CSV problemem może być fakt, że stworzono go dla programistów obsługujących narzędzia przetwarzania danych, a nie z myślą o wygodzie użytkownika chcącego szybko poznać strukturę treści. Nie ma w pliku csv miejsca na szczegółowe opisanie niezbędnych metadanych. Z tego powodu zdecydowaliśmy się na zastosowanie Tabular Data Package, czyli standardu publikacji danych w formie tabelarycznej stworzonego i promowanego przez Open Knowledge Foundation. Tego rodzaju pakiet każdorazowo, oprócz interesującego nas zbioru, zawiera drugi plik (json), w którym umieszczono szczegółowe metadane dotyczące pliku csv – w naszym przypadku pytań z ankiety – a także informacje o autorze danych i kontekście publikacji.
GitHub
Przygotowane w ten sposób pliki publikujemy na platformie GitHub. Tam znajduje się zawsze najnowsza wersja naszej bazy. Dane udostępniamy w otwartym formacie na licencji Creative Commons CC BY 4.0, co oznacza, że mogą być one wykorzystane w jakiejkolwiek postaci i w jakikolwiek sposób, również w projektach komercyjnych, pod warunkiem umieszczenia informacji o autorze, czyli Medialabie Katowice. W ten sposób wyprodukowane przez nas treści mogą zyskać drugie życie, służąc innym badaczom, pracownikom instytucji kultury, osobom szukającym wiedzy o odbiorcach kultury w Katowicach.
Dane udostępnione w tej formie mogą trafić do programów analitycznych lub narzędzi wizualizacji. Oczywiście cały czas udoskonalamy proces zbierania i czyszczenia treści. Aktualnie przygotowujemy wersję online ankiety, z której skorzystają ankieterzy wyposażeni w tablety. Będzie ją można również wypełnić w aplikacji Facebookowej, za pomocą której zbadamy użytkowników mediów społecznościowych biorących udział w wydarzeniach kulturalnych. Usprawnienie i zautomatyzowanie procesu pozyskiwania i przetwarzania danych nie tylko obniża koszty, przyspiesza pracę i eliminuje błędy, ale pozwala również zebrać lepszej jakości odpowiedzi. Przepytywana osoba dużo bardziej zaangażuje się w badanie, jeśli wypełnienie ankiety będzie przyjemnością, a jej rezultat od razu przyjmie atrakcyjną formę wizualizacji.