Kom trygt i gang!

11.11.2020

Mange av de viktigste journalistiske sakene de siste årene har kommet gjennom avansert databehandling og analyse - det vi gjerne kaller datajournalistikk. Å systematisere og analysere data ved hjelp av kode er et utrolig nyttig journalistisk verktøy. Det er heller ikke så vanskelig som mange tror.

Her er en sjekkliste til redaktører som vil starte med datajournalistikk.

Men før dere starter med datajournalistikk, er det lurt å tenke gjennom hvilke ressurser og verktøy dere trenger for å overholde Vær Varsom-plakatens bestemmelser om kildevern og beskyttelse av upublisert materiale.

Kildearbeid på nettet er både teknisk,juridisk og etisk litt annerledes enn mer tradisjonelt kildearbeid. En stor del av datajournalistikk handler om å selv innhente informasjon - altså webscraping. Webscraping er kopiering av tekst, bilder, HTML og annen data som finnes på nett, med hensikt å samle informasjon. Det finnes mange metoder for webscraping, både manuelle,automatiske og ved bruk av ulike verktøy.

Det er viktig å huske på at selv om noe er teknisk mulig, må man alltid foreta grundige journalistiske og etiske vurderinger rundt metode, som både inkluderer risikovurdering med tanke på omdømme, redaktøransvar,samt juridiske forhold.

Husk: Det forskjell på å få tilgang til data som andre har skaffet seg ulovlig, og det å selv skaffe seg data ulovlig.

Fire faser

Det er fire faser i arbeidet med datajournalistikk du trenger å tenke på. Hver av fasene har sine egne mulige sikkerhetsutfordringer, men ingen av dem er umulige å overkomme.

Et godt samarbeid med IT-avdelingen eller en IT-supportfunksjon kan være nyttig. Hvis bedriften har tilgang til slike ressurspersoner, er det lurt å prate med dem før dere starter med å behandle data journalistisk.

Fase 1: Hvordan skaffer vi data?

Data til journalistisk bearbeidelse kan skaffes på mange måter. Noen prosesser er enkle og ufarlige, f.eks. å koble seg opp mot offentlige API-er som leverer data. Men noen typer datainnhenting kan innebære risiko vi kan prøve å unngå.

Gjør en kildesjekk av kilden for data. Er det en troverdig kilde, og er det sannsynlig at personen eller institusjonen faktisk har tilgang til de dataene de sier de har?
Vær særlig forsiktig dersom dere skal laste ned data fra det mørke nettet, fra en tor\-rent-lenke eller f.eks. som en zippet fil som kan gjemme andre filer inni seg. Bruk en blank datamaskin som ikke er koblet til det vanlige nettet på jobben hvis du laster ned eller åpner data fra en kilde du er usikker på. Da reduserer du sjansen for at minnepinnen eller kilden kan inneholde skadelig programvare. Skulle noe gå galt, har det bare gått ut over den ene maskinen.
Hvis noen i journalistisk arbeid skal laste ned hemmelige eller ulovlige data, eller data fra en kilde dere helst ikke vil at skal spore aktiviteten deres av ulike grunner – bruk VPN-tjeneste eller TOR-browser for å anonymisere din nettrafikk overfor kilden.

Fase 2: Hvordan lagrer, systematiserer og analyserer vi data?

Lagring av data – særlig personopplysninger – har en del lovkrav knyttet til seg. Derfor er det viktig å ha et bevisst forhold til hvilke løsninger dere bruker for å lagre og analysere data. I tillegg er det viktig å tenke på kildevern og begrense innsyn til prosjektene fra ikke-journalister og utenforstående.

Vær sikker på at dere lagrer dataene på en tjeneste som oppbevarer dem godt, at du vet hvor data lagres fysisk og at du har en databehandleravtale hvis dere bruker en tredjepartstjeneste. Hvis mulig, bruk de tjenestene og leverandørene bedriften bruker fra før – da er sannsynligheten høyere for at IT-støtte finnes for det du trenger. Sørg også for god dokumentasjon av oppsettet og for at mer enn én person skjønner hvordan databasen og systemene virker. På den måten sikrer du at dere kan fortsette med datajournalistikk også hvis en nøkkelperson er på ferie.
Lag interne regler for overføring og kommunikasjon om dataene. Klargjør hvilke løsninger som er godkjente data som er mer sensitive.
Det er redaktørens ansvar å avgjøre hvem som får titte inn i redaksjonens data. Pass på at redaksjonelle data lagres uavhengig av andre bedriftsdata, og med begrenset innsyn også fra IT-avdelingen. Det kan for eksempel opprettes et eget serverområde for datajournalistiske prosesser der kun noen få IT-folk har innsyn. Ha også nøye kontroll med hvem i redaksjonen som har tilgang, og hvem som kan åpne for tilganger til nye brukere.
Husk at datalagring koster penger. Hvis du ikke betaler noe for tjenesten, betaler du vanligvis med data. Det anbefales ikke som løsning for datajournalistikk.
Bruk alltid tjenester som tilbyr identifisering av brukeren med tofaktorautentisering.
Vurder å lage mindre sensitive versjoner av datasettene til aktivt arbeid om sensitive deler ikke er nødvendige for undersøkelsene. F.eks. kan det lages en egen ID-nøkkel for unike personer som erstatter fullt fødselsnummer på 11-siffer.
Hvis dere bruker lokal lagring, og ikke skytjenester, pass på at det er mulig å skalere de løsningene dere velger for lagring dersom dere oppdager at datajournalistikk funker for dere.
Ikke bruk minnepinner, ekstern harddisk eller egen PC som eneste lagring av datasett. Hvis slike fysiske lagringsenheter skal brukes på noe tidspunkt i den journalistiske arbeidsprosessen, sørg for at enheten beskyttes med kryptering og tilgangskontroll – du vil unngå at det blir skandale hvis noen mister minnepinnen sin.

Fase 3: Trygg presentasjon

Ved publisering gjøres det kjent for hele verden hvilke data redaksjonen har jobbet med. Ta en vurdering av sikkerheten knyttet til både research/bearbeidelse og presentasjon basert på eventuelle trusler etter publisering.

Hvis data skal brukes direkte i presentasjonen med en database i bakkant, minimer dataene både i databasen og presentasjonen til bare det som faktisk skal offentliggjøres. Husk at data i basen kan bli eksponert selv om de ikke er aktivt vist frem i den redaksjonelle presentasjonen. Vurder også om å gjøre dataene mer unøyaktige er aktuelt.
Vær oppmerksom på eventuelle muligheter for enumerering av databasene – at teknisk kyndige kan gjette seg fram til større deler av basen ved å lete i nøkler/id-er. Om brukerne ikke skal kunne finne alle dataene sammen kan dere unngå dette ved å ikke bruke løpende eller identifiserbare nøkler i løsningen.
Hvis data skal være tilgjengelig i en tjeneste for leserne/brukerne, bør disse dataene være lagret atskilt fra øvrige data. Slik unngår du å gi eventuelle hackere en enkel inngangsport i alle datasett og databaser.
Hvis du skal ha en databasert tjeneste ut mot publikum, tenk på teknisk ytelse og hvilke kostnader som kan påløpe på lagringstjenesten hvis den utsettes for høy trafikk. Du vil helst unngå at tjenesten din kneler ved lansering.

Fase 4: Arkivering og sletting

Ha et bevisst forhold til hvor lenge det er nødvendig å oppbevare dataene du har tilgang til. Enkelte datasett vil du ha for alltid, andre er det naturlig å slette når evt. bruksområdet er borte eller foreldelsesfrist for søksmål er over. Datalagring koster penger, og i henhold til GDPR skal persondata som ikke lenger er i bruk, slettes. Dessuten finnes det alltid en risiko for at uvedkommende kommer inn i data, også data som ikke er i bruk.

Arkivering kan innebære å redusere tilgjengeligheten av dataene. Dette kan i noen tilfeller øke sikkerheten ved at hvilke data som er eksponert mot mulige trusler reduseres. For eksempel kan data fjernes fra aktive arbeids-/produksjonssystemer.
Det er ofte ikke nok å trykke «delete» for at data faktisk skal forsvinne.

Skytjenester håndterer det meste på godt vis hvis du sletter dataene dine – men sjekk hvor lang tid det tar før sletting faktisk finner sted hos eksterne leverandører
Lokale lagringsenheter som PC, harddisk eller minnepinne kan det være nødvendig å overskrive for at data faktisk skal være helt slettet.