Dokumenttien metadatan ja piilotietojen poistaminen

Kun lähettelee dokumentteja työkavereilleen tai ystävilleen, huomaa helposti lähettäneensä eteenpäin enemmän tietoja kun halusikaan. Osaava vastaanottaja pystyy kaivamaan Word- PowerPoint- ja Excel-tiedostoista suhteellisen helposti mm. seuraavat tiedot:
Wordin metatiedot ovat varsin laajoja. Klikkaa nähdäksesi suurempi kuva.
Nämä meta- ja piilotiedot ovat ongelmallisia ja maailmalta löytyykin monia esimerkkejä siitä miten tietoa on vuotanut ulos yrityksistä ja yhteisöistä piilotietojen kautta. Yksi esimerkki on vuodelta 2004 kun SCO haastoi Daimlerin oikeuteen väittäen omaavansa oikeudet Linux-käyttöjärjestelmän koodiin. SCO:n dokumenteista selvisi että alunperin tarkoitus oli haastaa oikeuteen Bank of America joka viime hetkellä muutettiinkin Daimleriksi.

Nämä piilotiedot eivät ole yksinomaan Microsoft Officen ongelma, vaan vastaavia piilotietoja löytyy myös OpenOfficesta ja jopa pdf-tiedostoista. Tässä muutama ratkaisutapa millä piilotieto-ongelmia voi lieventää.

1. Tallenna dokumentti pdf-, txt- tai rtf-muotoihin
Tämä ratkaisutapa auttaa osaan metatietojen ongelmista, mutta ei kaikkiin, sillä pdf ja rtf-muodot sisältävät jonkinverran metadataa. Rtf:n metatietoja riisuu sama menetelmä kuin Officessa muutenkin, mutta pdf-tiedostot ovat hieman hankalampi. Nämä menetelmät käydään läpi artikkelin kolmannessa kohdassa. Txt-muoto on lähes täysin piilotietovapaa (tosin levyjärjestelmän piilotiedot siihenkin jäävät), mutta txt-muoto ei kykene säilyttämään mitään muotoilua tai asettelua, eikä siten sovellu välttämättä kuin osaan käyttötarkoituksista.

2. Uuden asiakirjan luominen ilman metatietoja
Uutta asiakirjaa luotaessa, valitaan Uusi-ikkunasta komento Uusi aiemmin luodusta (New from Existing) jolloin uudesta luodusta asiakirjasta riisutaan asiakirjan ominaisuuksiin kuuluvat metatiedot, kuten kuka dokumentin on alunperin luonut ja milloin. Tämä ei poista kaikkia piilotietoja, mutta asiakirjan ominaisuudet tyhjenevät.

3. Piilotietojen poisto siihen tarkoitetulla komennolla
Tällä komennolla meta- ja piilodata voidaan riisua tiedostosta. Komento löytyy Office 2007 ja 2010-ympäristöistä.

Office 2007:
Office-valikko > Valmistele (Prepare) > Tarkasta asiakirja (Inspect Document)

Office 2010:
Tiedosto-valikko > Tiedot (Info) > Tarkasta asiakirja (Inspect Document)


Komennolla käytännössä käydään läpi mitä tietoja dokumentissa on ja poistetaan niistä halutut. Kaikkien poistaminen ei ole hyvä ajatus! Esimerkiksi Wordissa Ylä- ja alatunnisteet ja vesileimat (Headers, Footers & Watermarks) kannattaa jättää poistamatta ellei todella tahdo menettää asiakirjan ylä- ja alatunnisteita. Muutkin kategoriat kannattaa tarkistaa ennen poistamista.

OpenOffice:
Myös OpenOfficella voi perus metatiedot nollata. Tämä onnistuu komennolla Tiedosto > Ominaisuudet (File > Properties) ja sitten valitsemalla avautuvasta ikkunasta Palauta (Reset).
Tämä nollaa asiakirjan  ominaisuudet, mutta ei poista kaikkia metatietoja. Vielä täydellisemmän puhdistuksen voi tehdä seuraavasti:
  1. Tallenna tiedosto Odt, Ods tai Odp-muodossa.
  2. Nimeä tiedoston pääte Zip-muotoon
  3. Avaa pakkauksenhallintaohjelmaan
  4. Deletoi meta.xml-tiedosto paketista.

Meta.xml muodostuu uudelleen aika kun dokumenttia muokataan, mutta sen poistaminen tyhjentää kaiken metadatan asiakirjasta.

Tarkempi opas OpenOfficen metadataan löytyy vaikkapa täältä.

Acrobat:
Jos Acrobatista löytyy maksullinen versio (pelkkä Reader ei riitä) voi Acrobatissa metatiedot myös poistaa. Tähän käytetään komentoa Document > Examine Document. Toiminto avaa sivuun palkin jonka kautta näemme dokumentissa olevat metatiedot ja voimme myös poistaa halutut. Pdf tiedoston metadata ei yleensä ole yhtä laajamittaista kuin Officen tiedostoformaateissa, mutta sitäkin löytyy.

Kommentit