(8) Gemini 구글 최고의 인공지능 모델 (비판적인 관점) - IEEE Spectrum
구글이 제공한 제미니(Gemini)는 검색 업체와 OpenAI 간의 격차를 좁히기 위해 만들어진 AI 모델로,
처음에는 큰 인상을 남겼습니다. 강력한 벤치마크, 화려한 비디오 데모, 즉시 사용 가능한(비록 축소된 버전이긴 하지만)
기능에 자신감을 나타냈습니다.
그러나 AI 엔지니어들과 열렬한 팬들이 제미니의 세부 사항을 살펴보며 결함을 발견하면서 긍정적이었던 인상은 부정적으로 변했다. 제미니는 결국 GPT-4의 지배력을 침식시킬 수 있는 인상적인 시도였지만, 구글의 애매한 메시지는 방어적인 입장으로 남겨졌습니다.
북미의 대형 소매업체의 리드 AI 엔지니어인 Emma Matthies는 "답변보다 더 많은 질문이 있었으며 구글의 제미니 비디오 데모가 보여준 방식과 실제로 구글의 기술 블로그에 나와 있는 세부 사항 간에 불연속성이 있다고 느꼈습니다"라고 말하였습니다.
문제가 되는 구글의 시연 영상
문제의 데모는 "제미니와 직접 만나보기"라는 제목의 것으로, 유튜브에 제미니를 공개할 때 함께 공개되었습니다.
영상은 빠르고 친근하며 재미있으며 이해하기 쉬운 시각적인 예시들로 가득 차 있습니다.
또한 제미니의 작동 방식을 과장하고 있습니다.
구글 대표는 데모가 "제미니의 실제 프롬프트 및 출력을 보여준다"라고 말합니다. 그러나 비디오 편집은 일부 세부 사항들을 생략했습니다. 제미니와의 소통은 음성이 아닌 텍스트를 통해 이루어졌으며, AI가 해결한 시각적인 문제는 라이브 비디오 피드가 아닌 이미지로 입력되었습니다. 구글의 블로그에서는 데모에서 보이지 않은 프롬프트도 설명하고 있습니다.
예를 들어 제미니에게 손동작을 기반으로 가위바위보 게임을 식별하도록 요청할 때 "게임이다"는 힌트가 주어졌지만
데모에서는 해당 힌트가 생략되었습니다.
그러나 이런 문제는 앞으로 다루어질 이야기들의 시작일 뿐입니다.
AI 개발자들은 빠르게 제미니의 능력이 처음에 나타난 것보다 혁명적이지 않다는 것을 깨달았습니다.
Matthies는 "만약 GPT-4 Vision의 능력을 살펴보고 그에 맞는 인터페이스를 만든다면, 그것은 제미니와 유사합니다. 또한 부속 프로젝트로 이런 일을 해봤는데 '데이비드 애튼버러가 내 삶을 해설하고 있다'라는 동영상과 같은 실험이 있는데,
이것 역시 매우 재미있었습니다"라고 말합니다.
제미니가 공개된 지 불과 5일 후인 12월 11일, AI 개발자인 그렉 사데츠키(Greg Sadetsky)는 GPT-4 Vision을 사용하여 제미니 데모를 대략적으로 재현했습니다. 그는 제미니와 GPT-4 Vision 간의 헤드 투 헤드 비교를 진행했는데, 이는 구글에게 유리하지 않았습니다.
구글은 벤치마크 데이터에 대한 비판 또한 받고 있습니다.
제미니 제품군 중 가장 큰 모델인 제미니 울트라는 다양한 벤치마크에서 GPT-4를 이긴다고 주장합니다.
대체로 맞는 말이지만, 인용된 수치는 제미니를 가장 유리하게 그리기 위해 선택된 것입니다.
구글은 다른 사람들과 다른 방법으로 성능을 측정했습니다.
사용자가 AI 모델에 프롬프트를 제공하는 방식은 성능에 영향을 미칠 수 있으며
결과는 동일한 프롬프트 전략이 사용될 때만 비교 가능합니다.
GPT-4의 'massive multitask language understanding (MMLU)'이라는 벤치마크의 성능은
Few Shot Prompting이라는 방법을 사용하여 측정되었습니다.
문맥 없이 질문하는 것은 '제로 샷' 프롬프트라고 하며,
몇 가지 예를 제공하는 것은 '퓨 샷' 프롬프트입니다.
또 다른 방법은 AI 모델이 답을 찾기 위해 필요한 추론 과정을 따라가도록 하는 것입니다.
길드호크의 책임 인공지능 엔지니어인 리처드 데이비스는 "이것은 공정한 비교가 아니다"라고 말합니다.
구글의 제미니에 관한 논문은 여러 가지 비교를 제공하지만, 구글의 마케팅은 결과를 더 좋게 보이기 위해 다른 전략을
비교하고 있습니다. 또한 아직 대중에게 공개되지 않은 제미니 울트라(Gemini Ultra)에 전적으로 초점을 맞추고 있습니다. 현재 사용 가능한 유일한 버전인 제미니 프로는 덜 인상적인 결과를 제공합니다.
제미니의 프레젠테이션 문제는 제미니의 발표에 그림자를 드리웠습니다.
그러나 부실한 마케팅을 뚫고 들여다보면, 제미니는 여전히 인상적인 성과를 보여줍니다.
제미니는 멀티모달 방식으로, 텍스트, 이미지, 오디오, 코드 및 기타 형태의 미디어에서 추론할 수 있습니다.
이는 제미니에만 해당되는 것은 아니지만 대부분의 멀티모달 모델은 일반적으로 공개되지 않거나 사용하기 어렵거나
특정 작업에 중점을 둡니다. 그렇기에 OpenAI의 GPT-4가 이 분야를 지배하게 된 것입니다.
Matthies는 "최소한, 저는 GPT-4와 새로운 GPT-4 비전 모델에 강력한 대안적이고 근접한 경쟁자가 있기를 기대하고 있습니다. 왜냐하면 현재는 동급 제품이 없기 때문입니다"라고 말합니다.
한편, 데이비스는 체리 피킹에도 불구하고 몇 가지 유사한 시나리오에서 상당한 개선을 보여주는 제미니의 벤치마크 성능에 흥미를 느낍니다.
"MMLU는 GPT-4의 86.4%에서 제미니의 90%로 약 4% 향상되었습니다. 하지만 실제 오차가 얼마나 감소하는지에 관해서는 20% 이상 감소했습니다. 그것은 상당히 큰 차이입니다."라고 Davies는 말합니다.
작은 오차 감소도 모델이 하루에 수백만 건의 요청을 받을 때 큰 영향을 미칩니다.
제미니의 운명은 아직 결정되지 않았으며, 제미니 울트라의 출시일과 OpenAI의 GPT-5에 달려 있습니다.
사용자들은 제미니 프로를 지금 당장 시도해 볼 수 있지만 2024년 중으로 출시되지 않을 것입니다.
AI의 빠른 발전 속도는 울트라가 출시되면 어떻게 성공할지를 예측하기 어렵게 만들고 있으며,
OpenAI에는 새로운 모델이나 GPT-4의 적당히 개선된 버전으로 응답할 충분한 시간이 주어질 거라 생각됩니다.
*댓글과 공감, 광고 클릭은 계속해서 기록들을 이어나가는데 큰 힘이 됩니다:)
감사합니다