Das ist ein älterer (Jan 2017) aber immer noch ausgesprochen relavater Artikel des Guardians. Im Kern geht es um den Unterschied zwischen Statistik und Big Data. Auf den ersten Blick ist erscheint das nicht sehr intuitiv, weil ja auch Big Data und machine learning auf statistischen Verfahren beruhen.
Hier ist aber etwas anderes gemeint. Statistik bezeichnet hier eine wissenschaftliche Praxis, die mittels vorgefertigter Kategorien Daten über grosse Bevölkerungsgruppen erhebt und so Aussagen über die Gesamtmenge erlaubt, statt sich nur auf vereinzelte Anekdoten abstützen zu können. Da diese Praxis im 19. Jahrhundert entwickelt wurde, ist der Fokus der öffentlichen Statistik meist der Nationalstaat.
Diese Form des Wissens ist schon seit längerem in die Kritik geraten, weil die Kategorien, für die Zahlen erhoben werden, problematisch sein können und weil innerhalb der Kategorien oft mit Durchschnitten gearbeitet wird und so interne Differenzierungen verschwinden.
Demgegenüber verspricht Big Data, Wissen aus „unstrukturierten” Daten zu gewinnen, also nicht mit vorbestimmten und möglicherweise problematischen Kategorien zu arbeiten, und Daten bis in kleinste Details analysieren, also die Vielfalt der Realität erfassen zu können.
Das Problem bei Big Data ist nun aber, dass wir nicht wissen, welche Verzerrungen in den Daten enthalten sind, mit welchen Annahmen und zu welchem Zweck hier Daten ausgewertet werden. Weil das einerseits meist durch Private geschieht, anderseits die Verfahren oft schwer zu durchschauen sind.
Dem gegenüber haben auch, oder gerade, die problematischen Kategorien der staatlichen Statistik den Vorteil, dass sie transparent sind und verändert werden können. In der Volkszählung von 2001 wurden in Österreich das Christentum in 35 verschiedenen Konfessionen, der Islam aber ohne jede Differenzierung erfasst. In den Folgejahren wurde beschlossen, auf die Erfassung der Religionszugehörigkeit ganz zu verzichten. Durchaus ein demokratischer Fortschritt der unter dem Big Data Paradigma schwierig zu erreichen gewesen wäre.
Link zum Artikel:
How statistics lost their power – and why we should fear what comes next.