Treba samo još malo vremena i strojnog učenja. Nema razloga da ovo ne radi s >99% uspješnosti. OCR već puno godina radi savršeno, a i naš Photomath uspješno čita matematičke jednadžbe napisane rukom.
Može li kompjutor čitati kemijske formule?
- poruka: 7
- |
- čitano: 7.230
- |
- moderatori: vincimus
- +/- sve poruke
- ravni prikaz
- starije poruke gore
Ovo je zanimljivo.
Znam da iz lokalne, kvartovske kopiraone postoji mogućnost kada nešto skenira, da to radi na OCR način, da se poslije taj .pdf može pretraživati po ključnim riječima.
Nisam doduše skenirao tekstove iz kemije na taj način, al' za slova bilo sasvim O.K..
Ne znam kako bi išlo sa matematičkim formulama?
-klasično, japanci griješe, naši daleko bolje riješavaju takve probleme.. no ne znam dovoljno o tome što tim ekšli želi osim čitanja iz knjiga.. vjerojatno briju na AI, na računalo koje će ne samo pročitati.. tj moguće da je ovo prvi korak-faza a cilj AI-kemičar, tad nije usporediv s recimo našim math primjerom koji radi 'savršeno' (bolje).
-da, u textu je spomenuto npr koji font koristiti i sl, upravo zbog pravilnog čitanja ocr-a.. no to je riješivo, ili boljim algoritmom ocr-a ili printanjem knjiga u kojima će formula biti adekvatno čitljiva, kao što recimo danas svaka uplatnica ima barkod-qr dio kojeg čita skener (ne čita slova nego kod, dok ljudi ne čitaju brakod nego slova, s istog papira, na računima u trgovini..) tj nema ni jednog razloga da isto riješenje ne primjene u knjigama, npr udžbenicima i da iduća generacija ima otisnut kod jednako kao fusnotu i sl. ... eliminirati problem umjesto riješavati je bolja metoda, dok je čovjek ipak drugačiji od računala pa time i primjerni oblici zapisa, neovisno o pismu ili mediju..
-sličan problem su roboti i alati, tj ono što je prilagođeno ljudima kao sic-volan u autu i kad u to uguramo robota on ta mora imati 'dupe' i ruke, nalik našem tijelu pa i dimenzije + ograničenja i problemi koji s tim idu.. no kad se radi vozilo za tog robota tad problema ergonomije nema, ali tad čuvjek ne može voziti. .. identično je i ovo s čitanjem, jer knjige služe ljudima .. a neki plan kao ai-kemičar ovo vidi kao prvi korak, koji je recimo nepotreban možda time i pogrešan.. tj japanci su super-jaki.. no ne znači da nešto ne rade pogrešno kao ideju, tj možda to i znaju (jer nisu naivni, pametni su ..) nego usprkos tome rade tako i računaju da će usput to riješiti, tj time omogućiti ai-kemičara koji će recimo čitati stare knjige-zapise tj da će računalu time i to biti jednako dostupno kao svaka druga baza podatka. .. a iz tog i recimo vlasništvo, kao google, koji ulaže u skenranje svega i to mu postaje kapital temeljem kojeg naplaćuje usluge-korištenje.. zašto google skenira knjige, auto-rute.. zašto ovo sad rade japanci? .. i prvi nama vidljiv cilj ne mora biti konačni ili razlog toga.
-može se već sad daleko bolje, znaju to japanci.. tako da pretpostavljam da je to samo dio projekta ili etapa, ili naprosto neka sporedna studija u kojoj neka ekipa nešto radi pa ako i slučajno dođe do otkrića-pomaka super.. kao da vinima zaljevaju silicij i dobiju supervodić (što su već podigli na 'spontanu rutinu' u takvim timovima..).
Mislim da je mogući problem što novi algoritmi previše koriste "AI" (kao što je ihush spomenuo), odn pojednostavljeno, kvantitet umj kvaliteta uzorkovanja.
Ironija je u tome što je taj pristup, baš za OCR, od Kurzweila naovamo, upravo tako - repeticijom uzorkovanja - postizao odlične rezultate.
Međutim, uvjet je tada bio točno određeni font i slično.
Noviji algoritmi rade više ehm "bihevioristički", odn. pokušavaju prepoznati značajke grafema (slova itd) otprilike kako ih mi doživljavamo - prepoznajemo. I tu je catch: ta dva pristupa su, u velikoj mjeri, "kruške i jabuke".
Kad se riješenje problema traži u big data crunching, odn. beefanju "AI" ogromnim količinama podataka, naravno da će doći i do eksponencijalnog rasta toćnosti onog što se uspješno prepozna - ali i grešaka, odn. "sive zone" koju sad "AI" kao prepoznaje na bog te pita koji način.
Naime, veliki problem strojnog učenja jest da je gotovo nemoguća adekvatna kontrola (i korekcija) ljudskog faktora, jer "AI" barata ogromnim količinama podataka velikom brzinom, a pritom i razvija vlastita pravila (korelacije i sl) za koje bi, potom, "human controller" trebao obaviti "reverse engineering" da bi vidio kako je do nekog zaključka uopće došlo.
Pošto bi trebala armija ljudi za isto, fokusira se samo tamo gdje su greške u "algoritmu" očigledne, a one koje "dejstvuju" (makar za sad), ostavljene su kao - "ispravne".
Analogija bi bila sa nizom brojeva: formula koja opisuje isti niz brojeva, često ujedno odgovara i derivaciji odn. nekom drugom, sofisticiranijem nizu - što ne možemo znati (ne možemo uraditi distinkciju) , ako ne možemo "pojmiti" dovoljan broj početnih elemenata niza.
Pa onda pretpostravljamo da je ok (makar se možda negdje ne samo generira greška, već i "betonira" - jer je ljudski faktor rekao "to je OK").
Nisam ovo izvukao iz gujce: AI koji je rasturio ljude u šahu, a potom i GO-u, samostalno se razvio (doduše uspješno), do te razine da Googletovi inžinjeri još uvijek dekodiraju kako je neuralna mreža uspjela uspostaviti čitav niz pravila... kako bi to uspjeli prenijeti u druge domene (odn. iskoristiti tehnologiju).
Začetnik te AI (i dugogodišnji "umjetnički direktor") je bio upravo gore spomenuti Ray Kurzweil, otac OCR-a.
-zato bi prije rekao da rade nešto 'drugo'.. a ovo je samo usputni dio, tj ako to riješe, tad je svejedno 'što' računalo čita, kao što je osobi svejdno koju knjigu, sadržaj, font.. dok je kemijski spoj nešto što nije bruteforcanjem riječi u riječniku prepoznato kao problem jel neko slovo o ili nula ili nešto treće tj u rečenici-riječi postoji 'autokorekt' tj smisao rečenice + baza i riječniku i ocr time 'pogodi' kao što bi osoba zaključila jel nešto o-nula čistom logikom-čitanjem dok to u slučaju npr oiba i sl jedinstvenih brojevnih nizova nije tako tj imaju kontrolni-redundantni dio pa se zna da je pročitano točno-pogrešno dok se s drugima to ne može znati ako nemaju kontrolnu sumu i sl. .. a ovo je upravo u tom smjeru (nagađam) kao pokušaj točnog čitanja neke nepoznate knjige, jezika, riječi.. tj kako smo dešifrirali hijeroglife ili bilo koju šifru? ... a što ako nismo sigurni jel nešto o ili nula? tad već početno 'dešifriranje' neće dati ni teoretski točan odgovor ako pogriješimo u unosu slova tj čitanju.
-nema svrhe to raditi za ljude, nema svrhe za normalna računala i algoritme koji su jednostavno bolji-primjenjiviji ovisno o sitaciji.. a ovo je kad ne znamo ništa, ne znamo koji brojevni sustav, ne znamo jel latinica, engleski-japanski.. može biti klingonski i baza broj 14 .. i tad nam isti niz znakova daje sasvim drugi odgovor, tj ono što obični juzeri ne vide ispod haube računala... je niz nula-jedinica, koje su 'sve' tj pitanje je samo kako ih čitaš, čime, što ćeš s time, dok po headeru zaključiš da je slika-glazba ili nešto treće.. podatak ili algoritam-program itd.
-kod morzeove tražimo 'stop-start' tj jedinstveni znak koji upravo tome služi i tad nadalje čitamo od njega, no ako se prisjetimo, japanci su azijati, netko? .. smijer čitanja, lijevo-desno, može obrnuto, može gore-dolje tj čak ni to nije 'sveto pismo' tj je za nas jer smo postavili takva pravila, dok s kem.el kako mi se čini, pokušavaju upravo to, pročitati neovosno i bilo čemu tj uz AI... koji će iz uzorka zapravo jednako kao mi hijeroglife-šifre logikom-kombinatorikom dešifrirati, uz naravno daleko veću brzinu, resurse nego što ima ljudski um za držati u obradivom formatu recimo neki broj.. što računalu ne predstavlja bitnu razliku računati s brojevima o d 1 do deset tj može i s desetmilijardi.. jednakom lakoćom dok čovjek tad jednostavno griješi .. ai griješi dok uči, čovjek stalno.
-ostaje pitanje što je ok, kao prag-kriterij.. 100% ili 90% točnosti? 95%.. dok klasičan ocr ima +99% no ograničen 'našim' pravilima za koje će dati dobar rezultat, dok će u slučaju promjene jezika dati đabriš-smeće..
-eto.. tako nešto :) kao usputna etapa, no kao kod svakog prvog koraka, najvažniji za početak puta, tj u slučaju unosa podataka ovisimo o točnosti unosa, ne o načinu koji može biti miš-tipkovnica ili file.. no prvo moramo osigurati točnost tj imati algoritam koji će eliminirati netočnost kao što to radi kontrolni broj itd itd.. rekao bi da to rade, ne ocr nego korak dalje.. a možda ne postoji cilj ili sadašnji sustav koji bi ga kao quantno računalo ili neuronske mreže teoretski iskoristio, no pošto su pametni, zaključili su da se put počinje prvim korakom,... u ovom slučaju je to čitanje, tj unos podataka (za programere jasnije..) i ako je to pogrešno tad ostatak formule neće dati točan odgovor (osim onog pokvarenog sata koji dva puta dnevno pokaže točno vrijeme.. jedino što tad ne znamo kad je to vrijeme) :)
Mislim da sam čitateljima i komentatorima ovog mog uratka dužan dati nekoliko objašnjenja. Čitanje (procesiranje) teksta i konstituijskih formula nije isto. Kada se procesira tekst može se provjeriti postoji li pročitana riječ u rječniku, pa se tako može kontrolirati ispravnost pročitanog. U slučaju kemijskih formula to nije slučaj. U prikazanom slučaju krivo pročitane kemijske formule, obje su formule smislene, ispravne, oba kemijska spoja mogu postojati. Istina, svaki se novi kemijski spoj registira, pa bi to moglo pomoći pri identifiranju pogrešaka u čitanju, no vez obzira na tehničke teškoće - jer kemijskih spojeva ima više nego riječi - problem je u tome što može biti registriran i spoj krivo pročitane strukture, a može se raditi i o čisto hipotetskom, nikad sintetiziranom ili izoliranom spoju. Mogućnosti kombinacija atoma su beskonačne. Registriranih kemijskih spojeva ima oko 8 milijuna, dok samo alkana fornule C30H62 ima 37.977.600.390. Sasvim je jasno da netko može navesti kao primjer strukturu nekog alkana, recimo za vježbu u ovladavanju sustavnom nomenklaturom, a da takav spoj dotad nitko nikad nije spomenuo, a kamoli ga dobio kao supstancu.
-da, zato kažem 'kompjuteraškim' žargonom, da se kemija-spoj-čitanje ne može 'bruteforcati' riječnikom i metodama koje koristi OCR za kontrolu točnosti pročitanog kao logika, kontekst rečenice, kontrolni broj i sl.
-ako iz bilo kojeg razloga ocr pročita pogrešno, tad će dalje računati s pogrešnim podatkom.. a to je za bilo koji izračun beskorisno, tj rezultat je pogrešan neovisno što ne griješi u obradi-izračunu..
-a to u vrijeme kad se recimo želi stvoriti AI, npr soft koji će učiti kao ljudi i time recimo iskombinirati npr novo cijepivo protiv covida.. ima smisla kao cilj, mada je upitno može li se dovoljno kvalitetno riješiti tj koliko je važna početna greška pri 'unosu' podatka .. a postoji i recimo slučajnost, kao igrač lota koji dobije jackpot. Karikirano nazovimo ga 'budala'.. nikakve zasluge osim sreće-slučajnosti i pogodak. Takvom analogijom se i pogrešna početna formula može iskoristiti.. tj ako neko buduće ai-superračunalo takvim pogrešnim (ili točnim) podatkom dobije nekim svojim algoritmom (kao igra go) pogodak, npr cijepivo-recept, tad zapravo nije važno ako je taj podatak pogrešan. Paradox? neobično? ne.. tj kad znate matematiku, fiziku, kemiju... tad znate i obrnutim smjerom provjeriti, dokazati, sinteza-analiza, tj dođemo do početnog u takvoj pretpostavci pogrešnog podatka i pročitamo ga.. nema veze što je trebao biti nešto drugo, npr umjesto broja 123 je pročitan 456.. tj tad znamo da 'samo' moramo pronači ili točno pročitati taj podatak, ne 123 nego 456 a ostalo je već taj algoritam recimo riješio. Tad ljudi (kemičari) pročitaju.. tj ocr je tad nevažan (kao početna greška) u traženju rezultata jer smo tad već dobili riješenje, tad samo nađemo podatak koji nam treba za to riješenje..
-osoba ili kemičar će analizom podataka doći do izvora, tj te možda točno ili netočno pročitane formule pri čemu ona može biti netočna a da to nije važno tj tad se traži-čita ono s čim je računalo dobilo željeni rezultat, ne što piše u originalnom skeniranom zapisu nego u pročitanom.. i to taj kemičar može razumjeti-pročitati pa reći .. 'to je bijeli luk' ili otopina sloli itd itd..
-smisao, razlog takvog pristupa?.. programirati klasičnim algoritmom koji će dati točan rezultat (i koje će simulacije imati mogućnost biti točne) možemo samo ono što znamo, što je u slučaju otkrivanja cijepiva i bilo čega novog beskorisno.. jer to još ne znamo ... a tu dolazi strojno učenje, ai, tj ispadne da je dovoljno kljukati računalo podatcima a on će nekako nešto pronaći, lakše-brže nego čovjek, samo ga treba usmjeriti što traži. Kao što je u slučaju dešifriranja neke šifre, možemo krenuti pogrešnim brojem, redom.. tako možemo i pogrešnom kem.formulom.. tj nije važno koja je formula, nego ako da željeni rezultat, tad viknemo 'bingo'.. a onda jednostavno pročitamo što je to ai uzeo kao početno i to recimo pronađemo-znamo.. ljudi imaju ograničene resurse, npr koliko velik broj ili šifru mogu razbiti ručno-računanjem, računalo jednostavno može više-brže, kao lopata-bager, pri čemu ni lopata ni bager ne moraju biti pametni ili nešto novo.
-problem.. problem je samo 'bageru' objasniti što želimo, cilj.. a kao su lučaju go-šaha, on će već nešto pronaći. Kako su algoritmu za šah-go to objasnili teoretski mogu i ai-kemičaru ili ai-frizeru.. koji će tad tražiti neki rezultat. .. a sam ocr čitanje formule je tad sporedan-nevažan tj ljudski relikt u metodologiji jer da je važno unjeti formulu tad bi to unjeli drugim načinom, ne skerniranje-ocr iz knjige ili bi knjiga imala barkod i sl. tj to ostaje samo kao dodatni mogući input, kao da će u nekoj staroj-tajnoj knjizi-formuli biti nešto što treba pročitati + primjenjivost za ostale univerzalne potrebe čitanja ili čitljivosti bilo čega, npr svemirci, drugi jezik, pismo, smijer čitanja itd..
-razlika.. kad već nešto imamo, to želimo umnažati-kopirati, identično.. ne izmišlja se topla voda (nova formula).. tad je važno točno čitati tj ne promijeniti ni jedan dio a unos je početni.
-kad tražimo nešto novo, nepoznato.. tad je obrnuto, tj tad ne postoji točan unos jer ne postoji formula i zapravo se želi nešto novo, nova slika picassa nije identična kopija stare, tj barem jedan pixel mora biti pogrešan-promjenjen-novi da bi bilo nešto novo..
-što nam treba, što je cilj ove studije.. ai, nešto novo, ili barem drugi algoritam za nešto poznato koji će možda biti bolji od postojećeg pa tako i cijepivo ili bilo što drugo.. tad ta početna točnost nije važna, tj moguće nepotrebna jer se ai-superračunalo ne hrani podatcima iz starih knjiga.. tj kao da to u ovom slučaju japanci ipak žele dodati-uključiti po onoj nek se nađe, možda slučajno itd.. jer ako poskenira-pročita neku ogromnu bazu slika, spojeva, recimo kemijskih, .. možda sam ai tj strojno učenje kao šah-go dođe do nekog svog riješenja čistim postojanjem neke 'slike' ili podatka a sam ocr može biti nevažan za npr cijepivo ali možda se iskoristi za nešto sasvim deseto kao što to s izumima zna biti.