Tampere
05 Dec, Sunday
-20° C

Proakatemian esseepankki

Sanapilvi tekstiaineiston analysoinnin apuna



Kirjoittanut: Johanna Sauvula - tiimistä Eventa.

Esseen tyyppi: / esseepistettä.

KIRJALÄHTEET
KIRJA KIRJAILIJA
Esseen arvioitu lukuaika on 2 minuuttia.

 

Sanapilvi: limittäisistä sanoista muodostettu kuva.

Tarkoitus: havainnollistaa lähdetekstissä esiintyviä keskeisimpiä sanoja yhdessä kuvassa.

Hyödyt: helppo, nopea.

Haitat: vääristymä sanojen esiintyvyydessä ja tulkinnassa.

 

Hiihtoloman ratoksi tutustuin tarkemmin netin tarjoamiin sanapilvipalveluihin. Tämä siksi, että olimme sopineet asiakkaan kanssa haastattelutulosten analyysistä tehtävän myös visuaalisen sanapilven havainnollistamaan tuloksia.

Noin sadan sivun henkilöhaastatteluista kootun aineiston analysointi ei ole manuaalisesti kovin nopeaa työtä. Sen sijaan tiedoston pudottaminen sanapilvigeneraattoriin tapahtui copypaste-yhdistelmällä, sekä parilla hiiren näpäytyksellä. Lopputuloksena mitä mainioin sanapilvi siitä, mitkä sanat haastatteluissamme nousivat esiin eniten. Lopuksi vähän värien ja muotojen muokkausta, that’s it. Tai niinhän sitä äkkiä luuli.

Esiin nousseissa sanoissa kärkipäässä olivat muun muassa sanat ja, että, nainen, mies, kiinnostaa. Tämä ei kerro ihan kauheasti mitään siitä, mitkä asiat haastatteluissa todella nousivat keskeisiksi. Sukupuolet nousivat sen vuoksi, että jokaisen haastatellun asiakkaan sukupuoli kirjattiin ylös, haastattelussa kysyttiin kiinnostuksenkohteita ja keskustelussa käytettiin runsaasti sanoja ja, sekä että, mitkä itsessään ovat suomenkielessä yleisiä sanoja. Se on fakta, että nämä sanat toistuivat vastauksissa eniten, mutta ongelmallista on, ettei ne sanat kerro mitään itse aiheesta, mitä asiakkailta haastatteluissa kysyttiin.

Aloin tutkimaan sanapilvien tekemistä syvemmin, koska en aiemmin ollut juurikaan sanapilviä käyttänyt työssäni. Törmäsin The New York Timesin Jacob Harrisin sanapilviä ruotivaan artikkeliin ja tämä vahvisti omaa käsitystäni sanapilven haasteista analyysityökaluna.

Yleensä sanapilveä tehtäessä tekstin sanat lemmatisoidaan, eli perusmuotoistetaan, jotta sanojen esiintymisestä saadaan numeerinen tieto. Etenkin suomenkielessä, jossa taivutusmuotoja on monia, vääristää se sanojen esiintymistä, koska jokainen taivutus tulkitaan eriksi sanaksi. Numeerinen tieto toimii sanapilven perustana, koska eniten esiintyviä sanoja usein korostetaan sanapilvessä koon ja/tai värin avulla. Harrisin mukaan (2011) lemmatisointi voi kuitenkin myös vääristää todellista sisältöpainotusta. Esimerkiksi tekemisen ilmaisut, kuten kiinnostaa tai ei kiinnosta, ovat molemmat perusmuodoltaan sama sana kiinnostaa, vaikka vastaukset edustavat vastakkaista näkökulmaa.

Sanapilveä muodostaessa on syytä poistaa partikkelit. Hankalaksi tämä osoittautui siksi, etten löytänyt suomalaista sanapilvigeneraattoria tai muutakaan työkalua, jolla olisin suomenkielisen lähdeaineistoni ”esikäsitellyt”. Lopulta päädyin itse selaamaan analysoiden tekstin sanalistaa. Listaa sai onneksi itse karsia, jolloin tässä yhteydessä epärelevantit sanat sai karsittua pilvestä pois.

Harris (2011) nostaa esiin myös sanojen polysemian ongelmallisuuden. Esimerkiksi tehtyihin haastatteluihin liittyen olen käyttänyt sanoja aineisto, vastaukset ja haastattelutulokset, jotka kaikki viittaavat samaan asiaan. Kortesuon mukaan (2015) homosemia taas tarkoittaa sanojen samankaltaisuutta. Vasta voi tarkoittaa vihtaa tai ajan määrettä. Tämä sanaseikka voinee vääristää tulkintaa myös sanapilvien muodostuksessa.

Tuskailin sanapilven toteutuksen kanssa työkalun heikkoutta tässä yhteydessä. Asiakkaan kanssa olimme tästä sopimuksessamme sopineet, joten sanapilviä tein. Koin ristiriitaiseksi sen, että tulosten analysoinnissa loppupeleissä kuitenkin itse karsin sanoja pois, jolloin lopputulos on siitä riippuvainen, miten hyvin osasin karsittavat sanat valita. Onneksi olimme sopineet myös lyhyestä sanallisesta koosteesta, joten sain tehdä asiakkaalle myös kattavamman ja mielestäni kuvaavamman esityksen siitä, mitkä asiat haastatteluissa olivat oleellisia.

Sanapilviin perehtyessäni heräsi kiinnostukseni aineistoin analysointia kohtaan. Vastaan tuli muun muassa seuraavia mielenkiintoisia termejä: tiedonlouhinta, datalouhinta, klusterointi, korrelaatiot ja neuroverkko. Sitä en juurikaan vielä osaa sanoa, mitä nämä termit varsinaisesti tarkoittavat tai ovatko ne relevantteja työkaluja tällaisen haastatteluaineiston analysointiin, mutta aihe on varsin mielenkiintoinen. Onko se sitä big dataa ja sen penkomista?

 

Alla ongelmia havainnollistava kuva tämän esseen sanapilvestä suoralla copypastella ja värien muokkauksella. Sanapilvi on tehty WordArtin sanapilvigeneraattorilla.

 

LÄHTEET:
Harris, J. 2011. Word clouds considered harmful. Julkaistu 13.10.2013. Luettu 1.3.2019.
http://www.niemanlab.org/2011/10/word-clouds-considered-harmful/

Kortesuo, K. 2015. Homonymia ja polysemia. Julkaistu 19.1.2015. Luettu 43.3.2019.
https://eioototta.fi/homonymia-ja-polysemia/

Aihetunnisteet:
Kommentoi

Add Comment
Loading...

Cancel
Viewing Highlight
Loading...
Highlight
Close