구글, 사람처럼 보고 듣고 움직이는 '로봇 제어' 인공지능 공개
언어와 시각 인식 기능을 동시에 갖춘 멀티모달 언어모델(VLM)이 나왔다.아르스테크니카는 8일(현지시간) 구글과 베를린 공과대학 연구진이 언어 분석과 영상 인식을 통합해 자연어 명령을 이해하고, 주변 이미지를 분석해 로봇에 다양한 작업을 수행할 수 있도록 해주는 언어모델 ‘팜-E(PaLM-E)’를 공개했다고 보도했다.팜-E는 5620억개의 매개 변수를 지닌 VLM으로 지금까지 나온 것 가운데 가장 큰 규모를 자랑한다. 재교육을 하지 않아도 다양한 작업을 수행할 수 있는 것이 장점이다.우선 팜-E는 ‘서랍에서 과자를 꺼내와’ 같은 복