요즘 거의 모든 영역에서 유행하고 있는 인공지능의 발전에서 가장 어려운 부분은 의외로 가장 기초적인 부분인 데이터를 수집하는 영역입니다. 인간처럼 추론하고 결정할 수 있는 알고리즘을 개발하기 위해서는 말 그대로 어마어마한 양의 데이터를 학습시켜야 하는데, 그런 압도적인 양의 빅데이터를 확보하는 거 자체가 물리적으로 쉽지 않기 때문입니다.
때문에, 원본 데이터에 알고리즘 모델을 활용해 인공으로 데이터의 크기를 늘리는 기술이 이미 보편적으로 사용되고 있습니다. 그런데, 영상에서 언급하고 있는 이번 네이처 논문은 이렇게 인공적으로 생성한 데이터로 학습을 시키면 빈도수가 적어야 할 희귀 데이터의 빈도수가 늘어나서 제대로 된 학습이 실패, 결과적으로 인공지능이 붕괴된다는 겁니다.
논문의 제목만 봐도 이해하기 쉽습니다. “AI models collapse when trained on recursively generated data”
다만, 이 논문이 “그래서 AI는 다 실패할거다”를 말하려는게 아닙니다. 실제 원본 데이터가 모델에 의해 생성된 인공 데이터의 10% 정도만 존재해도 어느정도 납득할만한 학습이 가능하더라는 게 논문의 결론이죠. 이정도 최소한의 원본데이터 비율이 실제 large language model을 학습시키는 과정에서 얼마나 중요한지에 대한 이해가 이번 논문을 기점으로 더 깊어진다면, 인간이 생성하는 데이터를 가장 많이 확보하고 있는 플랫폼기업들이나 데이터 확보에 필요한 막대한 비용을 지불할 능력이 있는 빅테크 대기업들이 인공지능 경쟁에서 한 발 앞서게 될것 같다는 생각입니다.
인공지능의 발전이 점점 하드웨어에서 소프트웨어로, 소프트웨어에서 데이터 그 자체의 효과적인 확보로 이동하게 되는게 아닌가 합니다.