Synteettinen data on nimensä mukaisesti on keinotekoisesti tuotettua dataa. Tekoälyn avulla tuotettu data jäljittelee todellisen datan ominaisuuksia, mutta se ei sisällä oikeita, esimerkiksi henkilöitä koskevia tietoja. Koska synteettiseen dataan ei liity perinteisiä yksityisyydensuojaongelmia, se on oiva työkalu tekoälyn kouluttamiseen. Esimerkiksi Anthropic käytti synteettistä dataa Claude 3.5 Sonnetin koulutukseen ja Meta hienosääti Llama 3.1 -mallejaan tekoälyn tuottaman tiedon avulla.

Ratkaisu yksityisyyskysymyksiin

Tekoäly tarvitsee oppimiseen valtavia määriä dataa. Mitä enemmän ja/tai mitä laadukkaampaa dataa, sitä laadukkaammin tekoäly osaa jäljitellä ja tehdä ennusteita. Ongelma on, että tietojen keruuseen liittyy paljon huolia koskien esimerkiksi henkilö- ja muiden arkaluonteisten tietojen keruuta ja käsittelyä. Synteettisen datan käyttö onkin tärkeä yksityisyyden suojaamisen menetelmä, sillä siihen ei liity oikean datan käyttöä koskevia ongelmia. Tuotettu data jäljittelee oikeaa dataa, mutta ei todellisuudessa sisällä esimerkiksi ihmisten henkilötietoja.

Data on myös kallista. TechCrunch kertoo, että esimerkiksi Shutterstock veloittaa tekoälytoimijoilta kymmeniä miljoonia dollareita pääsystä arkistoihinsa ja Reddit puolestaan on ansainnut satoja miljoonia dollareita lisensoimalla tietoja muun muassa Googlelle ja OpenAI:lle.

Lopulta, datan hankkiminen käy aina vain vaikeammaksi. Monet tekoälymallit on koulutettu valtavilla määrillä julkista dataa. Yhä useampi toimija haluaa kuitenkin suojata omia tietojaan. Yli 35 prosenttia maailman 1000 vierailluimmasta verkkosivustosta on estänyt OpenAI:n kouluttamisen datallaan. Mikäli nykyinen trendi jatkuu, Epoch AI:n tutkijat arvioivat, että kehittäjiltä loppuu data generatiivisten tekoälymallien kouluttamiseen vuosina 2026–2032. Kun soppaan lisätään vielä tekijänoikeudelliset kysymykset, on selvää, että uusia ratkaisuja tarvitaan. Synteettinen data ratkaisee monia tiedonkeruuseen liittyviä ongelmia.

Synteettinen data ja mahdolliset riskit

Synteettinen data ei kuitenkaan ole ihmelääke. Siihen liittyy sama ongelma kuin kaikkeen AI:n kouluttamiseen. Koska synteettinen data on tekoälyn tuottamaa, jos kyseisen tekoälyn kouluttamiseen käytetty data ei ole laadukasta, ongelma toistuu synteettisessä datassa. Kouluttamiseen käytetyn tiedon virheellisyys, vääristymät ja syrjintä siirtyvät heikentävät synteettisen datan laatua. Jos esimerkiksi tietty ihmisryhmä on aliedustettuna koulutukseen käytetyissä tiedoissa, tulee sama ilmiö näkymään synteettisessä datassa.

Rice Universityn ja Stanfordin tutkijoiden vuonna 2023 tekemässä tutkimuksessa havaittiin, että liiallinen synteettiseen dataan luottaminen saattaa johtaa tekoälymallien laadun asteittaiseen heikkenemiseen. Toisin sanoen todellisesta maailmasta kerätyssä tiedossa esiintyvä harha kumuloituu jokaisen uuden tekoälysukupolven myötä. Kun datassa ilmeneviä hallusinaatioita, eli epätarkkoja tai virheellisiä tietoa ei havaita, ne heikentävät jälleen datan perusteella koulutettujen mallien tarkkuutta. Koska virheellisellä datalla koulutetut tekoälymallit tuottavat entistä enemmän virheitä sisältävää dataa, voi hallusinaatioiden kumulaatio johtaa lopulta täyttä hälynpölyä suoltaviin tekoälymalleihin. Tutkijoiden mukaan oikean tiedon lisääminen koulutusvaiheeseen sen sijaan auttaa lieventämään ilmiötä. Laadun varmistamiseksi synteettinen data vaatiikin perusteellista tarkistamista ja heikkolaatuisen tai virheellisen tiedon suodattamista sekä mieluiten yhdistämistä oikeaan dataan.

Lue myös: OpenAI:ssa mahdollisesti merkittävä muutos ensi vuonna

Lue myös: Social AI:ssa käyttäjä on yksityisen somemaailmansa päähenkilö

Lähteet: TechCrunch