Sieć neuronowa Google nadal zadziwia. Dzięki nowej maszynie do głębokiego uczenia się o nazwie PlaNet, która została przeszkolona przez 126 milionów obrazów i ich towarzyszącym danym EXIF, wychwytuje „nadludzką” zdolność określania lokalizacji prawie każdego zdjęcie.
Zespół kierowany przez Tobiasa Weyanda, specjalistę ds. wizji komputerowych w Google, stworzył PlaNet, robiąc wszystkie te zdjęcia i wykorzystując je do podzielenia świata na siatkę ponad 26 000 kwadratów. Rozmiar tych kwadratów różni się w zależności od tego, ile obrazów jest powiązanych z każdą lokalizacją.
Na przykład duże miasta, takie jak Nowy Jork, gdzie codziennie robi się wiele zdjęć, mają „bardziej drobnoziarnistą strukturę siatki niż bardziej odległe regiony, w których zdjęcia są mniej powszechne” – wyjaśnia. Przegląd technologii MIT. Google zignorował oceany i regiony polarne.
Korzystając z 91 milionów obrazów, zespół był w stanie nauczyć PlaNet, jak określać położenie siatki, korzystając tylko z samego obrazu. Rezultatem jest maszyna, która może wskazać lokalizację lub prawdopodobnych kandydatów po podaniu zdjęcia.
Zespół przetestował PlaNet przy użyciu 2,3 miliona obrazów ze znacznikami geograficznymi z serwisu Flickr. Był w stanie zlokalizować 3,6 procent z nich z „dokładnością na poziomie ulicy”, mówi Weyand, a kolejne 10,1 procent z dokładnością na poziomie miasta. PlaNet potrafił określić kraj pochodzenia 28,4 zdjęć, a zawartość 48 proc.
PlaNet został następnie poddany testowi na ludziach, którzy potrafią lokalizować obrazy za pomocą wszelkiego rodzaju wskazówek, w tym znaków drogowych, stylów architektonicznych, a nawet rodzaju roślinności.
„Weyand i spółka poddali PlaNet próbie w teście z 10 dobrze podróżującymi ludźmi” – dodaje MIT. „Do testu wykorzystali grę online, która przedstawia graczowi losowy widok zaczerpnięty z Google Street View i prosi go o wskazanie jego lokalizacji na mapie świata”.
PlaNet był w stanie pokonać ludzkich graczy, wygrywając 28 z 50 rund z medianą błędu lokalizacji 1111,7 km, podczas gdy mediana błędu lokalizacji przez człowieka wyniosła 2320,75 km.
„[Ten] eksperyment na małą skalę pokazuje, że PlaNet osiąga nadludzką wydajność w zadaniu geolokalizacji scen Street View” – powiedział zespół Weyanda.
„Uważamy, że PlaNet ma przewagę nad ludźmi, ponieważ widział o wiele więcej miejsc, niż jakikolwiek człowiek może kiedykolwiek odwiedzić” i nauczył się subtelnych wskazówek z różnych scen, które są trudne do odróżnienia nawet dla dobrze podróżującego człowieka” Dodaj.
PlaNet może nawet lokalizować zdjęcia zrobione w pomieszczeniach, używając podobnych zdjęć, które są powiązane z albumami, do których dołączone są dane lokalizacyjne. Najbardziej imponujące w urządzeniu jest to, że zajmuje tylko 377 MB miejsca, co oznacza, że z łatwością zmieści się na smartfonie lub tablecie.