Znajdź swojego trolla dzięki SNA

Social Network Analysis

Istnieje pewna grupa internautów prowadząca podwójne życie, rodem niemalże z pewnej nowelki Roberta Louisa Stevensona. W oflajnie są szanowanymi mężami, redaktorami, pracownikami naukowymi, mecenasami. Do ludzi wokół siebie odnoszą się grzecznie, są punktualni, nawet nie oszukują na podatkach. Kiedy jednak wchodzą on-line, okazują współinternautom zupełnie inne oblicze. Jako mr_hyde21 nie mają najmniejszych oporów dzielić się ze światem tym, co myślą o Murzynach, gejach, Żydach, feministkach, tych co prowadzą samochód trzymając dwoje rąk na kierownicy, kogo by sklepali, co lubią robić w łóżku i po co im do tego chomik.

O tym, że pozwolenie panu Hyde'owi na korzystanie z firmowego adresu e-mail jest błędem, wiedzą wszyscy oprócz najbardziej naiwnych doktorów Jekyllów. W związku z tym najczęstszą praktyką jest tworzenie sobie "anonimowej" persony internetowej. Przecież nikt nie będzie w stanie skojarzyć, że mr_hyde21 z forum Onetu (który by te wszystkie paskudne babochłopy łup! o krawężnik! i z kopa!) to jest nasz dobry dr Jekyll, dający niczym bogaty wujek dobre rady młodym startupom na GoldenLine. Niestety, mam bardzo złą wiadomość dla miłośników anonimowości w Sieci, zarówno trolli, jak i osób którzy z innych przyczyn (być może sensowniejszych) nie chcą ujawniać swojej tożsamości. Zachowanie anonimowości jest dużo trudniejsze, niż się komukolwiek do tej pory wydawało.

Deanonimizacja zanonimizowanej sieci

Facebook social graph

Analiza sieci społecznych jest dość dynamicznie rozwijającą się gałęzią socjologii, która stara wnioskować na temat społeczeństwa i społeczności na podstawie tego, jak kształtują się grafy powiązań między ich uczestnikami. W naszym kraju głównym popularyzatorem SNA wydaje się Dominik Batorski z Warszawskiego ICM-u. Standardową metodą prowadzenia badań jest uzyskanie od podmiotu zarządzającą siecią społeczną (czyli np. operatora telefonicznego lub właściciela internetowego portalu społecznościowego) zanonimizowanego grafu połączeń. Anonimizacja polega na tym, że wierzchołkom grafu przypisuje się losowo wygenerowane etykiety, w zamierzeniu uniemożliwiające identyfikację użytkowników.

Jak pokazują Arvind Narayanan i Vitaly Shmatikov w swojej pracy (którą znalazłem dzięki świetnemu artykułowi w nieocenionej Ars Technica), anonimizacja jest nieskuteczna. Przy stosunkowo niewielkim nakładzie pracy da się wierzchołki z "anonimowej" sieci z powrotem powiązać z rzeczywistymi użytkownikami. Wystarczy do tego inny, bardziej opisany graf, którego zbiór wierzchołków ma niepustą część wspólną ze zbiorem wierzchołków badanym grafem. Autorzy byli w stanie dzięki swojej metodzie zdeanonimizować sieć Twittera przy pomocy danych z Flickra, z błędem rzędu 12%.

Co z tego wynika?

Identyfikacja użytkownika Twittera raczej nie jest wielkim osiągnięciem: wydaje się, że ludzie właśnie po to mikroblogują, aby inni zwrócili na nich uwagę. Zauważmy jednak, że Narayanan i Shmatikov są naukowcami, a nie prawdziwymi napastnikami. Podobny trik działa również z danymi publikowanymi przez Netfliksa. Na podstawie danych o kilku filmach oglądanych przez jakąś osobę i tym jak je oceniła (np. na podstawie Internet Movie Database) można odkryć wszystkie obejrzane filmy i ich oceny. Nie trzeba dużo wyobraźni aby sobie uświadomić, że to już zaczyna być bardziej... hm, interesujące. Jak wiele można wywnioskować na podstawie tego, że ktoś bardzo nisko ocenił filmy Philadelphia, Brokeback Mountain i Boys Don't Cry, a bardzo wysoko Fahrenheit 9/11 i Zabawy z bronią Moore'a? Zapewne niemało (lewicowy homofob?).

Inne potencjalne scenariusze są również nieciekawe. Pomyślmy o spammerach albo phisherach wysyłających wysoce spersonalizowane mejle zamiast badziewia o nigeryjskiej księżniczce z milionem dolarów do przesłania. O dysydentach znajdowanych przez chińskie służby bezpieczeństwa na podstawie połączenia danych z portali dla profesjonalistów z listą billingów telefonicznych. O szantażowaniu małżonków, którzy zapragnęli poflirtować w internecie.

Niezbyt da się przed tą technologią uciec. Nie masz żadnych znajomych na portalach społecznościowych lub ta funkcja jest słabo zaimplementowana (jak np. na forum gazety.pl)? Zawsze można badać współwystępowanie wypowiedzi w tych samych wątkach. Nie uczestniczysz w życiu portali społecznościowych? Ale zapewne występujesz na zdjęciach swoich znajomych! O ile powiązanie twarzy z nazwiskiem jest nieco kłopotliwe, o tyle stwierdzenie, że na dwóch zdjęciach występuje ta sama osoba jest prostsze.

Z drugiej strony, nie wszystkie zastosowania zaprezentowanej techniki muszą być aż tak niepokojące. Zmontowanie nowoczesnej siatki terrorystycznej i uniknięcie dekonspiracji może w ciągu kilku lat stać się trudniejsze niż kiedykolwiek. Dużo prościej będzie wykrywać osoby głoszące oszczerstwa w Internecie.

Enter Amazon

Opracowanie dużych grafów wymaga znaczącej mocy obliczeniowej. Jeszcze do niedawna dostęp do tego typu zasobów był bardzo ograniczony. Praktycznie nikogo oprócz uczelni, wojska i agencji rządowych nie było stać na kupno superkomputera lub skonstruowanie klastra.

Sytuacja ta jednak uległa radykalnej zmianie w ciągu ostatnich kilku lat dzięki Amazon Web Services. Już kilkaset dolarów wystarczy na wykupienie znaczącej mocy obliczeniowej. Dodatkowo 2 kwietnia tego roku Amazon udostępnił swoim klientom infrastrukturę umożliwiającą wygodne korzystanie z MapReduce, który powstał m.in. do wydajnego rozpraszania obliczeń na grafach.

Nie mówimy o jakiejś abstrakcyjnej technologii przyszłości. Technologia umożliwiająca deanonimizację grafów już tutaj jest, w zasięgu ręki. Jedynym ograniczeniem jest czas nizbędny do zaimplementowania odpowiednich algorytmów, które nie są zbyt skomplikowane.

Polacy nie gęsi

Jak wygląda sytuacja w naszym kraju? Z punktu widzenia kogoś, kto chce zidentyfikować z nazwiska swojego ulubionego trolla: obiecująco. Nasza Klasa z ponad 9 milionami zarejestrowanych kont nie ukrywa w żaden sposób znajomych swoich użytkowników. Z dużym prawdopodobieństwem możemy założyć, że jeżeli ktoś ma konto na forum Onetu, Gazecie.pl albo na Gronie, ma również konto na Naszej Klasie. Kolejne źródła cennych informacji to GoldenLine i Profeo. Nie są one tak bogate jak NK, ale dane o relacjach są zapewne nieco lepszej jakości (dotyczą bardziej aktualnych kontaktów niż kolegów z podstawówki).

Wnioski

  • Anonimowość w Sieci w czasach Web 2.0 jest w większości przypadków szkodliwym dla swoich wyznawców mitem. Internet nie umożliwi nam ucieczki od odpowiedzialności za swoje słowa (w dobrym i złym znaczeniu). Jedyną sensowną strategią jest takie zachowanie, jakby zawsze i wszędzie można nas było rozpoznać. Podpisywanie się imieniem i nazwiskiem bardzo pomaga w zachowaniu dyscypliny przy publikowaniu materiałów w Internecie.
  • Polskie portale społecznościowe bardzo źle chronią prywatność swoich użytkowników, wbrew temu co mówi szef GIODO, Michał Sedrzycki. Zauważmy, że już np. LinkedIn ogranicza dostęp do informacji o sieci społecznej użytkowników.
  • Szykujmy się na wyjątkowo złośliwy, trudny do wychwycenia przez filtry spam. Raczej prędko niż nieprędko.
  • Merlin
    Merlin06-04-09, 05:23

    Z podobnych tematów - analiza charakterystycznych cech językowych. Np. ja mam tendencję do używania ".." zamiast "..."

    Na uczelni bawiliśmy się w analizowanie wypowiedzi z forów pod kątem stosowanego języka, nie pamiętam efektów, ale na pewno ktoś napisał już o tym prace doktorską :)

  • ms
    ms 06-04-09, 10:16

    ta uwaga na końcu o złośliwym spamie.. nie pasuje mi do reszty artykułu

  • Ryszard Szopa
    Ryszard Szopa06-04-09, 10:28

    @ms: spójrz na drugi akapit sekcji "Co z tego wynika?".

  • Ryszard Szopa
    Ryszard Szopa06-04-09, 10:34

    @Merlin: Hm, w analizie językowej tego typu najcięższe jest chyba ustalenie zbioru ficzerów lingwistycznych które dają w miarę miarodajne wyniki i których nie da się łatwo ukryć (np. poprzez ewelinkowanie). Chociaż do "polowania na trolla" takie podejście również może być skuteczne. W końcu każdy ma ograniczone słownictwo i dość głęboko zakodowane zwyczaje językowe. No a troll z definicji zostawia po sobie dość duży korpus :-)

  • Merlin
    Merlin07-04-09, 14:13

    @szopa: ewelinkowanie? co to?
    Ilość emotikonów na ilość zdań, ilość przecinków, pisanie z dużej litery, szczególnie często wykorzystywane słowa / szingle, na tle grupy oczywiście :)

    Nawet jak to nie jest dobra metoda, to na pewno ktoś już to analizował :)

  • Ryszard Szopa
    Ryszard Szopa07-04-09, 15:37

    @Merlin: nAPRaffdEm nIe kOyAszysh roOsHoffych blOGaskoof rOOshnych EffeLIneqq?!!!!1 Takich pisanych mniej więcej w tak jak poprzednie zdanie? W moim zakątku Internetu nazywało się to ewelinkowaniem i wszyscy prześcigali się w pisaniu podobnych filtrów na gg i jabbera. W każdym razie, pisanie przez jedną personę podobny filtr mogłoby zmylić algorytmy takie jak proponujesz.

  • Magdalaena
    Magdalaena 21-04-09, 22:57

    Ale czy można coś z tym zrobić ? Podziwiam odwagę autorów bloga, którzy integrują swoje sieciowe tożsamości z rzeczywistymi, ale ja sama nie jestem na to gotowa. Z drugiej strony występowanie w różnych miejscach sieci pod tym samym nickiem ma sens.

  • Daniel Janus
    Daniel Janus22-04-09, 14:37

    @Magdalaena:

    "The problem with screen names or handles deserves some amplification. Concealing your identity behind a handle is a juvenile and silly behavior characteristic of crackers, warez d00dz, and other lower life forms. Hackers don't do this; they're proud of what they do and want it associated with their real names. So if you have a handle, drop it. In the hacker culture it will only mark you as a loser."

    -- Eric S. Raymond, "How To Become A Hacker"

  • Julia Krysztofiak-Szopa
    Julia Krysztofiak-Szopa24-04-09, 22:38

    @Magdalaena
    Z grubej rury: nie można nic z "tym" zrobić. Jedyne, to występować w świecie, jakim jest Internet w taki sposób, aby nie musieć się tego wstydzić poza nim. Z reguły działa:)

  • Magdalaena
    Magdalaena 25-04-09, 00:56

    Z tym wstydzeniem się, to nie jest taka prosta sprawa. Bo oczywiście trollowanie na forach jest moralnie naganne i taki dr Jekyll powinien się od tego powstrzymać.

    Ale co ze stanem zdrowia ? Jeśli dr Jekyll prezes dużej spółki chce sobie anonimowo porozmawiać na wiarygodnym forum seksuologicznym o problemach z erekcją ? albo o interpretacji wykresów NPR ?
    A takie fora są bardzo potrzebne właśnie dlatego, że o intymnych problemach łatwiej opowiadać anonimowo niż w gronie kumpli.

Skomentuj!