Piilotetun metadatan eri muodot

maanantai 28. syyskuuta 2020

word cloud - metadata

Mitä ovat metadatat eli metatiedot ja mitä ne sisältävät?

Kun lataat kuva- ja videotiedostot esimerkiksi aineistonhallintasovellukseen, sovellus lukee kuvaan tallennetut metatiedot, kuten Exif, IPTC ja XMP. Niinpä sinun ei tarvitse syöttää niitä uudestaan tai erikseen, paitsi kun kuvissa ei tietoja löydy. Sisällön jalostaminen ja metatiedon täydentäminen on tärkeätä aineiston löytämisen kannalta.

Tiedostoihin kuten kuvat, logot, äänet, videot sisältävät piilotettua metatietoa, joka vähentää tiedon ja sisällön etsimiseen kuluvaa aikaa, parantaa sen laatua, parantaa organisaation eri toimintojen ja tiedonkäyttäjien välistä viestintää ja yhteistyötä ja siten  sisältö havaitaan helpommin. Lisää ja muokkaa hakusanoja ja muita metatietoja aina kun se on mahdollista. Kun kyseessä on laajempi kuvien kuratointi, metatietojen massamuokkaus ei vie kuin hetken.

Parin viime vuoden aikana olemme nähneet tiedostolle muodostuvan arvon, joka ulottuu perinteisen ajattelun / ulkopuolelle. Yritykset näkevät tiedoston arvon lisäksi yhtä tärkeänä sisälltöä ympäröivät metatiedot ja mihin syy-yhteyksiin nämä liittyvät.

Metatieto on laajemmin määriteltynä tietoa tiedostosta tai tiedoston sisällöstä.

Metatiedoista saatavat hyödyt korostuvat visuaalisten tiedostojen käytössä. Koska visuaalinen viestintä on paljon tehokkaampi kun perinteinen kirjoitettu informaatio, on luonnollista, että etenkin milleniaalien ja sen jälkeen työelämään tulleet henkilöt, pitävät videot jo lapsuuden ajoista asti täysin luonnollisena elementtinä. Kehittyvä teknologia omalta osin tukee visuaalisuuden hyödyntämistä kaikessa digitaalisessa toiminnassa.

Videon osuus koko internetin liikenteestä on jo 70% ja kasvaa jatkuvasti ja samalla strukturoimaton ja järjestämätön aineiston määrä kasvaa eksponentiaalisesti. Puutteellisen metadatan vuoksi on mahdotonta tietää mistä videon löytää,  jolloin metadatan merkitys korostuu entisestään.

Metadatan eri muodot

Metatietoja voi olla monia erilaisia ja ne voidaan jakaa eri ryhmiin esimerkiksi seuraavasti:

Tekniset metadata tiedot

Tekniset metatiedot voidaan automaattisesti hyödyntää digitaalisessa työnkulussa. Ne ovat mukana tiedoston kylkiäisenä ja eri sovellukset pystyvät tunnistamaan ne automaattisesti. Teknisesti kuvaavat metatiedot ovat esim. Exif, IPTC ja XMP muodossa.

Useimpiin tiedostotyyppeihin sisältyy tiedoston nimi, koko, luontipäivä, muutospäivä, tiedoston luontiohjelmisto, toimittaja, alusta, GPS-tiedot jne.
Lisäksi eri tiedostotyypeillä on omat erityistietonsa.

Kuvat sisältävät mm seuraavia tietoja: tiedostomuoto, leveys, korkeus, resoluutio, bittiä per pikseli, väriavaruus, kompressiosuhde….
Dokumentit ja esitykset sisältävät eri tietoja: leveys, korkeus, sivumäärä, fontit, viitetiedostot…
Videoissa metatietoja ovat mm. kategoriat, kodekit, kesto, leveys, korkeus, bit rate, sampling rate/size, aliotsikot, kieli..

Selostava metadata

Metatietojen oleellinen osa on ns. selostava metadata, eli käyttäjien itsensä tallentamat metatiedot, jotka ovat erittäin hyödyllisiä tarkoissa hakutoiminnoissa. Alla listattuna esimerkkejä selostavista metatiedoista:

Selostavat termit
- otsikko, seloste, kuvaus, avainsanat, tagit, yhteenveto,
- viittaukset todellisiin objekteihin, tuotteet, SKU:t

Ihmiset ja tapahtumat
- otsikko, aiheet, sijainti, tapahtumat, nimet
- valokuvaaja, tekijä, kirjoittaja, ohjaaja, tuottaja, esiintyjä, julkaisija

Oikeudet
- tekijänoikeusteksti, käyttöoikeus rajoitukset, yhteystiedot
- kohdeyleisö  

Metadataa työnkulkuluissa ja prosesseissa

Työnkulun metatieto

Esimerkkinä työnkulkuun liittyvästä metatiedosta mainittakoon aineistonhallinta, jota ei voi toteuttaa ilman prosesseja jotka tekevät työnkuluista toimivia ja tehokkaita. Aineistonhallintasovellukseen kuuluu oleellisena osana työnkulkuun liittyvät metatiedot. Työnkulun metatiedot voivat olla joko ohjelmistohallittuja tai käyttäjien lisäämiä. Niitä hyödynnetään työn etenemisessä ja työn seuraamisessa. Esimerkkinä mainittakoon statustiedot hyväksymistyönkulussa jotka:

  • ilmaisevat seuraavan työvaiheen
  • ilmaisevat onko tiedosto valmis julkaistavaksi
  • ilmaisevat väreillä työnkulun statuksen

Jotta työnkulut toimivat hyvin ja kommunikoivasti on sovelluksen kommentointimahdollisuus oleellisen tärkeä. Se voi olla joko yleiskommentointi koko tiedostosta, kommentoinnit määritellylle kuvan/videon alueelle/ajalle tai vaikkapa pelkkä luokitustaso tiedostolle.

Käyttötilastometatieto

Tehokkuuden mittaamisessa, eli miten sovelluksessa käytetään aineistoja, on arvokas tieto sekä tekijöille että päättäjille. Näitä tietoja saadaan automaattisesti tilastoitua julkaisu- ja aineistonhallintasovelluksesta. Tämä on hyödyllistä kun mitataan julkaistun tiedoston menestymistä tai tarpeettomuutta. Aineistojen julkaisemisessa selvitetään kuka on ladannut minkä tiedoston ja mihin käyttötarkoitukseen, ja täyttääkö se tiedoston käyttöehdot esimerkiksi, siellä, missä tiedosto on julkaistu, kuten Facebookissa, Slidesharessa, YouTubessa.

Analytiikalla taas tutkitaan

  • kuka on katsonut videota ja kuinka pitkään
  • käyttäjän sijainti, alusta, laite
  • keskimääräinen bitrate, startuptime (käynnistysaika), virheet, dropped frames, verkon nopeus

Organisaation oma sanasto (taksonomia) kaikkien tarvitsevien käyttöön.

Verkkokaupoissa, sisällöstä, kuten tuotetiedoista, valokuvista ja videoista, on tullut olennainen osa asiakaskokemusta - ja siinä tilanteessa vähittäiskauppiaat ja brändit, joilla on paras sisältö, erottuvat. Tämä rikastettu sisältö edellyttää että tiedostot ovat järjestelmällisesti löydettävissä metadatan avulla.

Tekniset ja fyysiset yksityiskohdat on tallennettava osana metadataa jotta saadaan kuvattua data. Organisaatiossa on syytä määritellä hallintamalli datalle (englanniksi data governance) jolla pyritään kuvaamaan mallia metadatan avulla, kuten luokituksilla, säännöillä ja tiedon eri rooleilla.

On tärkeää kerätä määritelmät liiketoimintasanastoon, joka toimii koko organisaation yhteisenä kielenä ja auttaa ymmärtämään metadatan roolia. On suositeltavaa edistää  yhteisiä tapoja ymmärtää, löytää, käyttää ja käsitellä metatietoa organisaatiossa datasiilojen luomisen sijaan.

Metadatan käytön ytimessä on tiedostaa ja osoittaa, että dataa käytetään oikeisiin tarkoituksiin. Sillä voidaan määritellä mistä sitä tulisi käyttää, miten se liikkuu ja miten sitä matkalla muutetaan.

Yrityksen taksonomia voi toki perustua yleisiin asiasanasto ja ontogiapalveluihin, jolla hakuprosessia saadaan johdonmukaiseksi oman alan valitun taksonomian puitteissa.

Järjestelmät tallentavat metadata automaattisesti 

Yhteenvetona eri metadataversioiden hyödyntämisessä on hyvä todeta, että suuri osa tiedoston metadatasta voidaan taltioida automaattisesti jo latausvaiheessa, tiedoston työstövaiheessa tai julkaistaessa tiedostoa, mikäli sovellus ja työnkulku on rakennettu järjestelmällisesti eri työprosesseja huomioiden.

Osa metatiedoista, kuten selostava metatieto, on (edelleen) useimmiten täytettävä käsin, jotta haut toimisivat tehokkaasti. Kannattaa miettiä tarkoin mitkä kentät kuuluu täyttää, tai jopa pakottaa käyttäjää täyttämään määrätyt kentät, jotta saadaan  paras hakutulos optimoitua pienellä työmäärällä. Tutustu meidän muissa artikkeleissa miten voimme auttaa metatiedon hallinnassa sekä yleensä aineistonhallintapalveluumme.

Kuvientunnistus tuo lisäarvoa ja säästää aikaa käyttäjille

Aineistonhallinnan raskaimmat työvaiheet

Metatietojen lisääminen joka ikiselle kuvatiedostolle on raskas ja aikaa vievä työvaihe esimerkiksi toimivan digitaalisen aineistonhallinnan eli DAM-sisällön toteuttamisessa sekä digitaalisen sisällöntuotannon arvon parantamisessa. Koska hakukriteerien kirjoittaminen kuvatiedoston kylkeen on työlästä puuhaa jää se suurimmaksi osaksi kirjoittamatta tai ainakin sitä tehdään riittämättömästi. Tägäys sitoo henkilöstöresursseja ja on valitettavan usein se työvaihe joka eniten aiheuttaa hakujen epäonnistumisia.

Kuvientunnistus tuo lisäarvoa ja säästää aikaa käyttäjille

Arkistoinnin työnkulussa hakusanoittaminen kuvantunnistuksen avulla tarjoaa alustavan ehdotuksen käyttäjälle, jota käyttäjä sitten tulee kuratoida ja verifioida. Sovelluksen algoritmi kykenee analysoimaan käyttäjälleen useita satoja kuvia sekunnissa! Tekoälyyn ja koneoppimiseen perustuva kuvantunnistus auttaa meitä säästämään valtavasti aikaa ja resursseja.

Viemällä luettelointi nykyaikaan automaattisella kuvien kuvientunnistuksella ja tägäyksellä voidaan jo tämän perusteella etsiä sisältöä ulkoasun samankaltaisuuden, avainsanojen tai molempien perusteella.  Hyödyntämällä tekoälyä ja koneoppimista  voidaan lisäksi tunnistaa jo paljon muutakin hyödyllistä. Teknologiat kuten videontunnistus, äänentunnistus, puheentunnistus, luonnollisen kielentunnistus jne. saadaan kohdennettua informaatiota automaattisesti liitettyä sisältöön metatietona ja luokituksena.

 

Kirjoittaja Rolf Koppatz

Rolf on Communication Pro:n perustaja ja toimitusjohtaja, DAM konsultti, markkinoinnin sekä IT-alan ammattilainen 35 vuoden kokemuksella.

Sano hei, vaikka LinkedInissä.

www.communicationpro.com