Multimodālā mācīšanās vienmēr ir bijusi izaicinājums Mākslīgais intelekts, jo dažāda veida datu efektīvai apstrādei ir vajadzīgas dažādas pieejas — kaut kas tāds mašīnmācības joprojām ir tālu no realizācijas.
Tomēr pētnieki no Honkongas Ķīnas universitātes un Šanhajas AI laboratorijas nāca klajā ar novatorisku risinājumu: "Meta-Transformer" ir vienota AI sistēma, kas var apstrādāt vairākas datu modalitātes, izmantojot vienu un to pašu parametrus. Izprotiet tālāk sniegto informāciju!
redzēt vairāk
AI un darba slodze: ieguvums vai izaicinājums profesionāļiem?
ChatGPT veidotājs pieliek punktu izveidoto tekstu noteikšanas rīkam…
O cilvēka smadzenes ir iedvesma šai jaunajai pieejai. Mūsu smadzenes vienlaikus apstrādā informāciju no vairākām maņu ievadēm, piemēram, vizuālajiem, dzirdes un taustes signāliem, un viena avota izpratne var palīdzēt izprast citu.
Tomēr šīs iespējas replicēšana AI jomā ir bijusi sarežģīta, jo dziļās mācīšanās modalitātes trūkums.
(Attēls: Thinkhubstudio/iStock/playback)
Datu modalitātēm ir atšķirīgas iezīmes. Attēliem ir telpiskā informācija un informācijas dublēšana saspiestos pikseļos. Punktu mākoņus ir grūti aprakstīt, jo tie ir izkliedēti 3D telpā.
Audio spektrogrammas ir nestacionāri, laika ziņā mainīgi datu modeļi. Savukārt video dati ietver attēlu kadru sēriju, kas ļauj ierakstīt telpisko informāciju un laika dinamiku.
Līdz šim pieejas dažādu veidu risināšanai ietvēra atsevišķu tīklu izveidi katram datu tipam, kā rezultātā bija daudz darba, lai precizētu modeļus atsevišķi. Tomēr Ķīnas pētnieki ir ierosinājuši jaunu veidu, kā tikt galā ar šo sarežģītību.
Meta-transformators sastāv no trim galvenajām sastāvdaļām: modalitātes speciālists datu marķierēšanai, modalitātes koplietots kodētājs, lai iegūtu dažādu veidu attēlojumus un uzdevumiem specifiskas uzdevumu galviņas "lejpus straumei".
Šī sistēma ļauj izveidot koplietotas marķieru sekvences no multimodāliem datiem un iegūt attēlojumus, izmantojot kodētāju ar iesaldētiem parametriem. Meta-Transformer vienkāršā pieeja efektīvi apmāca uzdevumiem specifisku un vispārīgu modalitātes attēlojumu.
Meta-Transformatora eksperimentu rezultāti bija iespaidīgi. Ietvars sasniedza izcilu veiktspēju vairākās datu kopās, kas aptver 12 dažādas modalitātes.
Šī novatoriskā pieeja sola jaunu virzienu agnostiskas sistēmas izstrādē modalitāte, kas apvieno visu veidu datus un būtiski uzlabo spēju saprašana multimodāls.
Izmantojot Meta-Transformer, multimodālā meklēšana spers lielu soli uz priekšu, nodrošinot ievērojamus sasniegumus mākslīgā intelekta un mašīnmācīšanās jomā.
Iespēja apstrādāt vairākas datu modalitātes ar vienu vienotu sistēmu ir svarīgs pavērsiens ceļā uz jaudīgāku un efektīvāku AI.