Pedofil képekkel tanították be a mesterséges intelligenciákat

Child sexual abuse hotline Crime, Law and Justice police --- Child Porn Child Pornography Horizontal CRIME
22 October 2021, North Rhine-Westphalia, Duesseldorf: An investigator sits in front of monitors with unrecognizable photographs, some of which show sexual abuse, at the tip line in the State Criminal Police Office. If you suspect sexual violence against children and young people, you can call the tip line at the State Criminal Police Office on 08000431431. Photo: Rolf Vennenbernd/dpa (Photo by ROLF VENNENBERND / DPA / dpa Picture-Alliance via AFP)
Vágólapra másolva!
Ezernél is több gyerekbántalmazásos kép volt az egyik legnagyobb képtárban, ami a mesterséges intelligenciák tudásának egyik alapját adta.
Vágólapra másolva!

Nagy botrányt tört ki a német LAION körül, a vállalat gépi tanulást használó modellek fejlesztői számára biztosít olyan adatkészleteket, amelyekkel azok betaníthatják a mesterséges intelligenciás modelljeiket. A legnépszerűbb adatkészlete az 5 milliárdnál is több képet tartalmazó LAION-5B, többek közt a Stable Diffusion képgenerátor készítői is ezt veszik igénybe.

Egy ügyintéző a német rendőrség gyermekbántalmazással is foglalkozó részlegének forróvonalán Forrás: dpa Picture-Alliance via AFP/Rolf Vennenbernd

A Stanford Egyetemhez tartozó Internet Observatory labor egyik kutatója a napokban komoly bombát dobott az adatkészlet kapcsán: David Thiel nyomozása szerint az internet legkülönfélébb zugaiból gépileg összegereblyézett LAION-5B képtárba pedofil tartalmak kerültek, rengeteg gyanús fotó mellett ezernél is több bizonyítottan gyermekbántalmazásos képet talált a repertoárjában.

A leleplezésre a LAION elérhetetlenné tette az érintett képtárat, állítása szerint zéró toleranciája van az illegális tartalmakkal szemben, a kitisztítását követően újból kiadja majd a LAION-5B-t.

Mindez viszont nem orvosolja a gondot, hogy a készlettel már betanított MI-k „szennyezettek", hacsak a fejlesztőik a saját szakállukra ki nem gyomlálták az adatkészletből az illegális képeket. Az említett Stable Diffusion fejlesztői például ezt tették, a modelljük 2.0-s verziójától kezdve egyénileg tisztított készletet használnak a rendszerük betanítására.

Ha szeretne még több érdekes techhírt olvasni, akkor kövesse az Origo Techbázis Facebook-oldalát, kattintson ide!