Do połowy roku twórcy polskiej semantycznej wyszukiwarki internetowej Nekst chcą zebrać i uporządkować 500 mln polskojęzycznych dokumentów krążących w sieci. Pozwoliłoby im to przebić Google i Yahoo. Dzięki temu internauta szybciej będzie mógł znaleźć szukaną informację.
Szacuje się, że w polskim internecie krąży około miliarda polskojęzycznych dokumentów. Dane te porządkują twórcy polskiej semantycznej wyszukiwarki internetowej Nekst.
Do czerwca tego roku zeskanowanych zostanie w sumie 500 mln dokumentów - w tym artykuły i pliki pdf. W zasobach przeglądarki znajdzie się zatem połowa polskiego internetu. Wtedy też Nekst ma być udostępniony użytkownikom.
Nad wyszukiwarką pracuje zespół z Instytutu Podstaw Informatyki PAN w Warszawie i Politechniki Wrocławskiej.
- Nawet Google czy Yahoo, przy całej swojej potędze, prawdopodobnie nie mają zebranego całego polskiego internetu - przyznaje kierownik projektu, prof. Jacek Koronacki, dyrektor IPI PAN. Szacuje, że wyszukiwarki te gromadzą tylko co piąty dokument po polsku.
Ziarnko do ziarnka
Na razie twórcom polskiej wyszukiwarki udało się zebrać 160 mln polskojęzycznych dokumentów, a więc ok. 16 proc. polskiego internetu. Wciąż problemem jest porządkowanie i opisywanie dokumentów - to pochłania najwięcej czasu i pieniędzy.
Polska wyszukiwarka będzie działała według całkiem innych algorytmów niż największe wyszukiwarki międzynarodowe. - Te wyszukiwarki nie mają mechanizmów, które naśladowałyby rozumienie języka - opowiada prof. Koronacki i podkreśla, że Nekst będzie pierwszą w Europie tak dużą wyszukiwarką semantyczną dla narodowego języka.
O co chodzi?
Nekst będzie analizować tekst pod kątem najczęściej pojawiających się słów i wyrażeń. Dzięki temu wyszukiwarka może "wywnioskować", o czym jest dany tekst i jak najskuteczniej go zaklasyfikować. - Musimy umieć budować mechanizmy rozumienia języka. Musimy zwłaszcza umieć uwzględniać fleksję i swobodny szyk zdania - wyjaśnia prof. Koronacki.
Jeśli internauta zapyta o opony, Nekst ujednoznaczni zapytanie i dopyta, czy chodzi o opony samochodowe, czy może też chodzić opony mózgowe. Pokaże szukającemu linki także do stron, w których nie ma frazy „opony samochodowe”, ale występuje rdzeń słowa "opony" i pojawiają się inne słowa, które wskażą, że strona rzeczywiście poświęcona jest motoryzacji.
W ramach projektu trwają też prace nad analizą obrazów - wyszukiwarka w dokumentach będzie mogła po pewnego stopnia rozpoznawać, co jest na ilustracjach.
Autor: gry / Źródło: PAP
Źródło zdjęcia głównego: tvn24 | Maciej Wężyk