Vágólapra másolva!
1989-ben a Szabadalmi Hivatallal közösen indult el az Arcanum, amely ma Magyarországon sokak „bibliája” lett. A könyveket, folyóiratokat, újságokat, fényképeket digitalizáló cég alapítójával, az idén nyugdíjba vonuló Biszak Sándorral beszélgettünk.
Vágólapra másolva!

Ha valaki most megnyitja az Arcanumot, azt látja, hogy közel 57 millió digitalizált, feldolgozott oldalon kereshet. Ez iszonyatosan nagy szám, nem?
Az, de mindez csak egy része a munkásságunknak. Az Arcanumon kizárólag olyan folyóiratot dolgozunk fel, amelynek a finanszírozását mi végezzük el. Van azonban másik két fontos adatbázisunk is, az egyik a Hungaricana közgyűjtemény portál, ez az adatbázis könyvtárak vagy levéltárak közreműködésével jött létre. Ott is van 20 millió feldolgozott oldalunk. Van még egy Szaktárs nevű oldal, ahol jelenleg 25 könyvkiadó összes könyve megtalálható digitálisan feldolgozva, ott is elérjük lassan a 10 millió oldalt. 

Abban reménykedünk, hogy ennek az évnek a végére a három adatbázisban elérjük a 100 millió feldolgozott, publikált oldalt.

Biszak Sándor, BiszakSándor, az Arcanum alapítója, interjú, portré, 2024.04.04.
Biszak Sándor 1989-ben alapította meg az Arcanumot
Fotó: Csudai Sándor - Origo

Az első oldal feldolgozására emlékszik még?
Mi 1989-ben alakultunk, akkor még az volt a szokás, hogy legépeltük a szövegeket. Az első kiadványunk a Károli Gáspár féle Biblia volt, azt még számítógéppel, szövegszerkesztővel kellett leírni, kinyomtattuk, jöhetett a korrektúra, utána lehetett kiadni. A 2000-es évek közepére jött el az áttörés, amikor kiderült, hogy a tömeges digitalizálásra nagy igény mutatkozik. Ebből a szempontból a Google Books volt a minta, ők azt találták ki, hogy a világ összes könyvét digitalizálják. Azt is kimondták, hogy 137 millió könyv van a világon – ezt senki sem bizonyította be azóta sem. 2005-06 táján vesztettünk el egy közbeszerzést, a magyar középkori okleveleket szerettük volna digitalizálni. Ekkor jöttünk rá, hogy érdemes a lapokat, folyóiratokat digitalizálni. A Századok című folyóirat volt az első, a második a Vasárnapi újság című lap. 

Egy fényképezőgépet használva kezdtük el a munkát, ami nyomokban sem hasonlít a mai tevékenységünkhöz.

Az első digitalizált napilapunk a Népszava volt. Egy pincében bukkantunk rá a még a XIX. században kiadott számokra. A napilapok digitalizálása nagyon fontos a munkánkban, mert a nagyközönség számára ez a legkeresettebb és a legfontosabb.

Miért?
Mert a nagypapánkról, nagymamánkról, az ellenségeinkről, a barátainkról, egyszóval mindenkiről írtak annak idején. Mivel a kutatások nagy része a személyekre és a családokra vonatkozik a leginkább (azaz ezt keresik a legjobban a felhasználók), evidens, hogy a napilapok digitalizálása lett a legfontosabb feladatunk.

Idegen nyelvű sajtótermékeket, például román napilapokat miért kezdtek digitalizálni?
Egyrészt, mert fogyóban vannak a még fel nem dolgozott magyar termékek. A magyar folyóiratok 80 százalékát feldolgoztuk. Ezért nyitottunk külföldre. Kint voltunk az Egyesült Államokban, ahol megtaláltuk az emigráns magyarság egykori kiadványait. Romániába is sokat járunk, ott is előkerülnek olyan anyagok, amiket itthon nem lehet megtalálni. A Marosvásárhelyi Könyvtár teljes anyagát sikerült feldolgozni. 

Biszak Sándor, BiszakSándor, az Arcanum alapítója, interjú, portré, 2024.04.04.
Az Arcanum keresései között a sport a legnépszerűbb téma
Fotó: Csudai Sándor - Origo

A legérdekesebb és legfájóbb, hogy a románok ikonikus sportlapja, a Gazeta Sportuliror nyomtatott változata most szűnt meg, miközben ennek a feldolgozását mi végeztük el. Mint Magyarországon, mint Romániában a sporttémájú lapok a legkeresettebbek és legnépszerűbbek. Ezzel a döntéssel a mi felhasználói körünk is bővül és kilép a határokon túlra.

Mindent digitalizálhatnak?
Mindent, amire a tulajdonosoktól vagy a jogutódoktól engedélyt kapunk. Vannak olyan újságok, amelyekkel nem tudunk mit kezdeni, 

ebben az egyik „legviccesebb” a Dörmögő Dömötör, amelyhez hozzá sem nyúlhatunk, mert nincsen rá engedélyünk.

Ne kérdezze, hogy miért, nem tudom. Vannak még ilyen újságok, de szerencsére ezek vannak kisebbségben. Vannak olyan újságok, amelyek nem merik publikálni a saját archívumukat. Van, amelyik azt mondja, hogy majd ők megcsinálják. Aztán persze nem.

A Magyarországon megjelent könyvek digitalizálásán nem gondolkodnak?
Nehéz kérdés, mert itt is lehetnek jogi akadályok. Ugyanakkor a Magyar Sportújságírók Szövetségével van egy olyan megállapodásunk, hogy az újonnan megjelent sportkönyveket mind digitalizálhatjuk. Ez a könnyebb része a dolognak. A nehezebb? Mondjuk az, hogy honnan indulunk ebben a kérdésben? Az első könyv, amelyet Magyarországon nyomtattak ki a Budai Krónika volt. Megjelenésének élve 1473. Innen számolunk? Vagy Szabó Károly gyűjtése nyomán, aki 1531-1711 között gyűjtötte össze a Magyarországon megjelent, magyar nyelvű könyveket? 

A könyvek digitlizálása az egyik legnehezebb feladat

Egyszóval a könyvek digitalizálása csak látszólag könnyű feladat. Miközben 1920 előtt nagyjából 200 ezer megjelent könyv van, 1920 után több mint egymillió. Az utóbbi már nagyon nagy szám. Egy biztos, az 1945 előtti kiadványokat el lehetne kezdeni, mert ott nincsenek már jogi problémák. Csak abban nem vagyok biztos, hogy ennek lenne bármi értelme.

 De ha idehoznának ezer könyvet a sporttörténészek, másik ezret a színháztörténészek, az azért lenne más, mert akkor egy-egy témakör mentén lehetne elkezdeni ezt a munkát.

De annak, hogy minden ponyvaregényt, minden tudományos könyvet, minden verseskötetet találomra digitalizálunk, annak nem látom értelmét.

Melyek azok a tartalmak, amelyeket a legtöbben keresnek az Arcanumon?
Az első helyen a sport áll, imádják az emberek. Hegedűs Csaba olimpiai aranyérme anno engem arra inspirált, hogy 1972-ben mindent összeszedjek a magyar olimpiai bajnokokról – Hajós Alfrédtól kezdve. De ott van a dobogóm a Színházi Élet is. Aztán rengetegen keresnek fotókat, hiszen ezekben is remek dolog elmerülni. Ha valaki kint volt 1974-ben a Vasas-Pécs NB I-es meccsen és most rábukkan ennek a meccsnek a képeire, biztosan talál magának olyat, amit szívesen megnéz. 

Ugyanakkor – ki hinné – a hetvenes-nyolcvanas évek divatbemutatóinak résztvevői is keresik magukat.

Ki gondolta volna ezt? Ezzel együtt mi nagyon kicsik vagyunk, ha megnézi a newspapers.com oldalt, ott lassan közelednek az 1 milliárd feldolgozott oldalhoz. Ami lényeges: a legkeresettebb tartalmak között ott is mindig megtalálható a sport tartalom. Ez mindenképp jelzésértékű.

Az Arcanumnak van egy arcfelismerő rendszere. A GDPR-tilalomfák árnyékában nem kockázatos ennek a használata?
Két dologtól tarthatunk. Az egyik, hogy a képek egykori tulajdonosa felbukkan. A másik, hogy azok jelentkeznek, akik a képeken vannak. Erre volt pár vicces példa. A Tolna Megyei Népújságban 1975-ben egy járási távolugró versenyről közöltek képes riportot. Az egyik kép alatt azt írták: „íme, a duci távolugrónő.” Képzelje el, mit éreztem, amikor évtizedekkel később csengett a telefon és a vonal végén az egykori hölgy.

Digitalizálásra váró újságok az Arcanumban
Fotó: Csudai Sándor - Origo

Elmondta, hogy ő mér 1975-ben is reklamált a népújságnál, hogy tüntessék el a képet. Akkor nem járt sikerrel, mos igen. Egy másik: 1982-ben eladó ingatlant hirdettek a Népszabadságban. 

Évtizedekkel később jelentkeznek, hogy már eladták. 40 évvel ezelőtt eltűnt egy 11 éves kislány. E-mailt ír, hogy már megkerült.

Egyszóval, nem árt nagyon óvatosnak lenni. Ilyenkor leveszem a képeket – főleg akkor, ha úgy érzem, hogy többet ártok, ha mégis fent hagyom őket. Úgy is mondhatnám, hogy eddig csak a Dörmögő Dömötör tudott bennünket megállítani.

Mai eszével újra belevágna ebbe a munkába?
Sokkal hamarabb elkezdeném. 1983-ban a Richter gyógyszergyár könyvtárában indult a pályafutásom. Akkoriban csomagkapcsolt hálózatnak nevezték azt, amit ma internetnek hívunk. Egy tekerős telefonon felhívtam a partnert, így teremtettünk egymással kapcsolatot. Én nagyon későn léptem be az internet világába és az előfizetői piacra is – ez utóbbi dátuma 2014 volt. Visszanézve fantasztikus volt az a számítástechnikai fejlődés, amit átéltem. De bevallom: mi mindenben 4-5 évet késtünk. Ám ennek mi nem mindig érezzük a hátrányát. Az amerikaiak az ötvenes években rossz minőségű mikrofilmekkel kezdték – most szenvednek a digitalizációval. Ebben mi tudunk nekik segíteni. Olykor a későn jövőknek is jut azért valami. 

Az Arcanum 1989-ben indult, de mára ez alaposan kinőtte magát. Éppen ezért érdekes a kérdés, hogy nem érzi-e azt, hogy mára ez az egész lassan meghaladja a Biszak-család erejét? Mintha egy megáradt folyót néznénk, ami egyre inkább kilép a medréből.
Idén megyek nyugdíjba, 65 éves leszek, van 5 gyermekem. Előd fiam tette az egész vállalkozást világszínvonalúvá. Európában néhány ország van, ahol ez hasonlóan megy, de 1000 kilométeres körzetben nincs ilyen, mint az Arcanum. A mi mostani nagy találmányunk a lapok szegmentálása, a „Newspaper Segmentation”. 

Ha ezt valaki beírja a Google-be, bennünket dob ki elsőnek.

Ez alapján kaptunk egy megkeresést az Egyesült Államokból, Utah államból. Néhány héttel később itt ültek a mormon befektetők – magunk sem hittük el. Amerikában nagyméretű A2-es újságok vannak. A szövegfelismerést nem tudták elvégezni, mert nem tudták az oldalakat szegmentálni. Mi igen. Mi a technológiánkat átadtuk nekik, de a mormonoknak 300 millió feldolgozott oldaluk van, ami a mi segítségünkkel újra feldolgoznak. Ha így nézem, a folyó tényleg kilépett a medréből. A mormonoknak amúgy egészen különleges kéréseik is voltak.

Mik?
Hogy szűrjük ki az ő 300 millió újságoldalukból az anyakönyvi híreket. Mert a mormonok a világ összes anyakönyvét gyűjtik. Náluk mindenki mormon lesz, aki bekerül az ő anyakönyvükbe. Hinné, hogy 1962-ben itt voltak Budapesten, hogy begyűjtik az összes magyar anyakönyvet, miközben ők mikrofilm olvasókat és egyéb gépeket ajándékoztak hazánknak. Számos magyar anyakönyv azért van ma meg, mert a mormonok megtalálták és megőrizték őket mikrofilmeken. Aztán most digitalizálják. Elhagyott falusi parókiákról, templomokból kerültek elő anyakönyvek, amelyek minden bizonnyal az ebek harmincadjára jutnak, ha nem mentik meg ezeket. Ez egészen döbbenetes sztori. 

A mesterséges intelligencia megjelenése hogyan érinti a munkájukat?
Itt lép be a legújabb fejlesztésünk, amely arról szól, hogy a Chat GPT-vel hogyan lehet összekapcsolni a mi adatbázisunkat. A Chat GPT-ről sok minden rosszat elmondanak, a legnagyobb hibája, hogy hazudik, azaz tudományosan megfogalmazva, hallucinál. Mi azt mondjuk, hogy meg lehet neki mutatni a forrást. A Chat GPT még soha nem mondja meg a forrását – titkolja. Olyan ez, mint a Coca-cola receptje. 

Biszak Sándor, BiszakSándor, az Arcanum alapítója, interjú, portré, 2024.04.04.
Biszak Sándor, az Arcanum alapítója
Fotó: Csudai Sándor - Origo

Nem fedik fel a titkaikat, mert nem áll érdekükben. Az lenne az üdvös, ha megmutatná a forrást – ebben segítünk neki, hogy megadjuk a számára a forrásokat. Magam is kíváncsi leszek arra, mi jön ki ebből. Nekünk most a legnagyobb probléma az anyagok beszerzése. Ezzel kell dolgozzunk a legtöbbet, hiszen fizikailag ide kell hozni az újságokat. Több száz kilométerről is. 

Mi 30 éve folyamatos fejlődésben vagyunk. 

Jelenleg mintegy 13 ezer magánelőfizetőnk van, ami az intézményeket illeti, ott 250-300 előfizetőnk van. Hogy hol van ennek a vége? Nem tudom. A határ a csillagos ég – jó lenne eljutni oda. De néha meg azt érzem, hogy már régen a csillagok között utazunk.