Googleのニューラルネットワークは驚かされ続けています。 1億2600万枚の画像とその画像によってトレーニングされたPlaNetと呼ばれる新しいディープラーニングマシンを使用 EXIFデータに付随して、ほぼすべての場所を特定する「超人的な」能力を獲得しました 写真。
GoogleのコンピュータビジョンスペシャリストであるTobiasWeyandが率いるチームは、これらすべての画像を取得し、それらを使用して世界を26,000を超える正方形のグリッドに分割することでPlaNetを作成しました。 これらの正方形のサイズは、各場所に関連付けられている画像の数によって異なります。
たとえば、毎日たくさんの写真が撮られるニューヨーク市のような大都市は、「写真があまり一般的ではない遠隔地よりもきめ細かいグリッド構造になっています」と説明しています。 MITテクノロジーレビュー。 グーグルは海と極地を無視しました。
チームは9,100万枚の画像を使用して、画像自体のみを使用してグリッドの位置を計算するようにPlaNetに教えることができました。 その結果、写真が送られてくるときに場所や候補者を正確に特定できるマシンができあがります。
チームは、Flickrからの230万のジオタグ付き画像を使用してPlaNetをテストしました。 Weyand氏によると、それらの3.6%を「ストリートレベルの精度」で特定し、さらに10.1%を都市レベルの精度で特定することができました。 PlaNetは、28.4枚の写真の原産国、および48パーセントのコンテンツを特定できました。
その後、PlaNetは人間に対してテストされました。人間は、道路標識、建築様式、さらには植生の種類など、あらゆる種類の手がかりを使用して画像を見つけることができます。
「Weyandと共同研究者は、10人のよく旅行した人間に対するテストでPlaNetをそのペースに乗せました」と付け加えます。 MIT。 「テストでは、Googleストリートビューからランダムに表示されたビューをプレーヤーに提示し、世界地図上でその場所を特定するようにプレーヤーに依頼するオンラインゲームを使用しました。」
PlaNetは、ローカリゼーションエラーの中央値が1131.7 kmで、50ラウンドのうち28ラウンドに勝つことで、人間のプレーヤーを打ち負かすことができました。一方、人間のローカリゼーションエラーの中央値は2320.75kmでした。
「[この]小規模な実験は、PlaNetがストリートビューシーンのジオロケーションのタスクで超人的なパフォーマンスに到達することを示しています」とWeyandのチームは述べています。
「PlaNetは、人間が訪れることのできる場所よりもはるかに多くの場所を見てきましたので、人間よりも有利だと思います。 旅慣れた人間が区別するのが難しいさまざまなシーンの微妙な手がかりを学びました。」 追加。
PlaNetは、位置データが添付されたアルバムに関連付けられた同様の写真を使用して、屋内で撮影された画像を見つけることもできます。 このマシンで最も印象的なのは、必要なスペースが377 MBしかないことです。つまり、スマートフォンやタブレットに簡単に収まります。