← Back to list2026-06-13

더 큰 모델이 답은 아닐지도 모릅니다 — AI 투자에서 요즘 제가 눈여겨보는 것

AI 투자스스로 배우는 AIPhysical AIVC 관점

AI에 투자할 때 많은 분들이 비슷한 질문을 먼저 떠올리십니다. "어느 모델이 제일 크고 똑똑한가?" 그런데 요즘은 이 질문만으로는 조금 부족하지 않나 하는 생각이 듭니다. 다음 기회는 살짝 다른 곳에 있을지도 모르겠습니다. 더 큰 모델 그 자체보다, AI가 직접 해보고 그 결과로 다시 배우는 구조를 — 얼마나 싸게, 많이, 그리고 자기만의 것으로 갖고 있느냐가 점점 더 중요해지는 듯합니다. 이 글에서는 그 이야기를, 처음 보시는 분도 편하게 따라오실 수 있도록 천천히 풀어 보겠습니다.

한 줄 요약

"큰 모델은 이제 끝났다"는 이야기는 아닙니다. 다만 수익이 생기는 자리가 모델 크기에서 'AI가 스스로 배우는 구조를 누가 가졌느냐' 쪽으로 옮겨가는 것 같습니다.
핵심은 데이터 그 자체라기보다, 행동 → 결과 확인 → 점수 매기기 → 학습 → 다시 투입이 하나로 이어져 도는 구조라고 생각합니다.
그래서 저는 '모델 성능'보다 '결과까지 확인된 경험을 얼마나 싸게, 많이, 자기만의 것으로 쌓는가' 를 먼저 보려고 합니다.

1. 질문부터 다시 정리해 봅니다

먼저 헷갈리기 쉬운 표현 하나만 짚고 가겠습니다. 흔히 초과수익이라고 하면, 남들과 똑같이 해서는 못 버는, 나만 더 버는 몫을 말합니다. 그리고 'AI 모델'이라고 하면 보통 GPT나 클로드 같은 거대한 모델을 떠올리시면 됩니다.

원래 하고 싶은 이야기는 이렇습니다. "AI에서 다음 큰 수익은 단순히 더 큰 모델에서 나오기보다, 현실이나 업무에서 결과를 확인할 수 있는 구조에서 나올 가능성이 높다." 조금 더 풀어 쓰면 이렇게 됩니다.

AI에서 앞으로의 큰 수익은, 모델을 더 키우고 데이터를 더 모으는 데서만 나오지는 않을 것 같습니다. 오히려 AI가 실제 환경에서 직접 행동하고, 그 결과를 점수로 바꾸고, 그 점수로 다시 배워서 현장에 또 투입하는 구조를 — 얼마나 싸게, 많이, 자기만의 것으로 돌리느냐에서 나올 가능성이 높다고 봅니다.

이 '스스로 배우는 순환 구조'가 이 글의 중심입니다.

그림 1. AI가 직접 해보고 그 결과로 다시 배우는 순환입니다. 한 바퀴 돌 때마다 결과까지 확인된 경험이 하나씩 쌓이고, 그만큼 모델이 좋아집니다.

여기서 한 가지만 꼭 짚고 싶습니다. 이 구조에서 쌓이는 건 '그냥 데이터'가 아니라 결과까지 확인된 경험입니다. 둘은 생각보다 많이 다릅니다.

예를 들어 "창고 로봇 영상 1,000시간"은 생각만큼 값지지 않을 수 있습니다. 무슨 일이 있었는지, 잘한 건지 못한 건지가 남지 않으니까요. 반대로 "로봇이 물건을 집으려 했고 — 성공인지 실패인지, 얼마나 걸렸는지, 부쉈는지, 사람이 끼어들었는지까지 남은 10만 건"이라면 이야기가 달라집니다. 이걸로는 모델을 실제로 가르칠 수 있기 때문입니다.

그림 2. 같은 '양'이라도 가치는 다릅니다. 행동과 결과가 측정돼 점수로 매길 수 있어야 학습에 쓸 수 있습니다.

2. 주장을 하나씩 따져 봤습니다

그럴듯하게 들린다고 다 맞는 건 아니라서, 이 주장을 일곱 조각으로 나눠 하나씩 살펴봤습니다. 괄호 안 숫자는 제 나름의 확신 정도입니다(100점 만점). 어디까지나 제 개인적인 판단입니다.

나눠 본 주장	제 판단	한 줄 이유
1. '더 큰 모델'만으로는 추가 이득이 준다	대체로 맞다고 봅니다 (75)	모델을 키우는 일도 여전히 중요하지만, 사람이 만든 데이터로 성능을 끌어올리는 방식은 한계에 가까워 보입니다. 다음 연료는 AI 자신의 경험이라는 이야기입니다.
2. 채점되는 분야는 성능이 빨리 는다	맞다고 봅니다 (85)	수학·코딩처럼 정답을 자동으로 채점할 수 있는 곳에서 2025년 가장 큰 진전이 나왔습니다.
3. 현실에서의 경험이 다음 데이터다	맞다고 봅니다 (80)	사람이 만든 데이터는 거의 다 쓴 상황입니다. 자율주행·로봇·산업 AI는 이미 '겪으면서 배우는' 방식으로 돌아갑니다.
4. '싸게'가 중요하다	맞다고 봅니다 (80)	현실에서의 경험은 비쌉니다(로봇·차량·사람·안전). 같은 성능이라면 경험 한 건당 비용이 낮은 쪽이 유리합니다.
5. '많이'가 중요하다	맞다고 봅니다 (85)	이런 구조는 결국 물량 싸움입니다. 많이 돌릴수록 데이터도 쌓이고 단가도 내려갑니다.
6. '자기만의 것으로' 쌓으면 강하다	대체로 맞다고 봅니다 (75)	자기만의 행동 통로·고객 업무·센서·투입 권한이 있으면 강합니다. 다만 공개 기술이 빠르게 따라오면 약해질 수 있습니다.
7. 수익은 '모델'보다 '인프라'다	절반쯤 맞다고 봅니다 (70)	인프라만으로는 부족해 보입니다. 인프라 + 현장 + 데이터 권리 + 채점할 수 있는 성과 지표를 함께 가진 곳이 유리하다고 생각합니다.

3. 왜 '모델'보다 '스스로 배우는 구조'에 더 눈이 가는가

거대 모델은 앞으로도 분명 중요합니다. 다만 '투자해서 수익을 내는가' 관점에서 보면, 모델 그 자체에는 조금 까다로운 점들이 있습니다.

최고 수준의 모델을 만들려면 정말 큰돈(설비 투자비)이 듭니다.
모델 성능 차이는 금방 따라잡히거나 가격 경쟁으로 줄어듭니다.
남이 만든 모델을 가져다 쓰게 해주는 통로(API)가 있어, 누구나 좋은 모델을 빌려 쓸 수 있습니다.
무료로 공개되는 모델도 계속 좋아지고 있습니다.
무엇보다 고객은 '모델'이 아니라 '업무 성과'에 돈을 냅니다.

그래서 저는, 수익이 모델 그 자체보다 모델을 실제 성과(매출·불량률 같은 지표)에 연결해 하나로 돌려놓은 구조에서 나올 가능성이 더 크다고 봅니다. 같은 모델을 쓰더라도 두 회사의 가치는 꽤 다를 수 있습니다.

그림 3. 같은 모델이라도 회사에 따라 다릅니다. 왼쪽은 답만 내놓고 끝이라 배움이 안 쌓이고, 오른쪽은 결과가 다시 학습으로 돌아와 조금씩 좋아집니다. (여기서 '방어력'은 경쟁사가 쉽게 따라 들어오지 못하게 막아 주는 힘을 말합니다.)

왼쪽은 입력을 받아 답을 내놓으면 끝입니다. 돌아오는 반응이라곤 좋아요/싫어요 정도라서 배움이 잘 쌓이지 않고, 누구나 비슷하게 따라 할 수 있습니다. 오른쪽은 AI가 실제 업무를 처리하고 — 승인/거절·매출·불량률·작업 시간처럼 결과가 측정되어 — 그게 다시 학습으로 돌아옵니다. 쓰면 쓸수록 조금씩 더 좋아집니다. 제 생각에 가치는 오른쪽에 더 많이 쌓이는 것 같습니다.

4. 진짜 관건은 '채점이 되느냐'인 것 같습니다

AI는 '그럴듯한' 답을 잘 만듭니다. 그런데 다음 단계로 가려면 '그럴듯함'이 아니라 '정말 맞았는지'가 필요합니다. 그래서 정답을 자동으로 채점할 수 있는 분야가 먼저 빠르게 좋아지는 것 같습니다.

분야	어떻게 채점하나	왜 빨리 좋아지나
코드	테스트 통과·실행·속도·버그 수	점수가 분명합니다
수학	정답·증명 확인	자동 채점이 됩니다
자율주행	충돌·끼어듦·안전거리·법규 위반	결과가 실제로 확인됩니다
로봇	작업 성공·걸린 시간·파손·사람 개입	생산성과 바로 이어집니다
제조	불량률·수율·멈춘 시간	곧장 돈으로 환산됩니다
물류	집기 성공·동선·배송 시간	한 건씩 측정됩니다
콜센터·세일즈	전환율·해결률·만족도	성과가 분명합니다
바이오 실험	실험 결과·적중률·독성	실험값이 곧 점수입니다

이렇게 되면 '모델이 얼마나 똑똑한가'보다 '채점 기준을 얼마나 잘 만들고 자동화했는가' 가 더 중요해지는 것 같습니다.

5. 좋은 데이터의 조건 — 그냥 많다고 되는 건 아닙니다

"로봇 영상이 아주 많아요"라는 말만으로는 부족합니다. 정말 값진 데이터는 아래 여섯 가지를 갖추고 있어야 한다고 봅니다.

조건	뜻
행동 기록	AI나 사람이 무엇을 했는지 남아 있어야 합니다
상태 기록	행동 전후로 상황이 어땠는지 남아 있어야 합니다
결과 측정	성공/실패·비용·시간·안전·품질이 측정돼야 합니다
점수로 변환	그 결과가 학습에 쓸 점수로 바뀌어야 합니다
다시 넣을 권리	좋아진 모델을 같은 현장에 다시 넣을 수 있어야 합니다
자기만의 것	경쟁사가 같은 구조를 쉽게 따라 만들 수 없어야 합니다

이 중 하나라도 빠지면 방어력이 샙니다. 예를 들어 병원 데이터를 아무리 많이 갖고 있어도, AI가 처방에 손댈 수 없고 그 결과를 학습에 다시 쓸 수 없다면 구조가 닫히지 않습니다. 반대로 창고 로봇 회사가 고객 현장에 로봇을 깔고, 매일 실패 사례를 거둬서, 다음 날 곧바로 개선해 넣을 수 있다면 — 그건 꽤 단단한 구조라고 생각합니다.

6. 투자자라면 이런 숫자를 봅니다

앞의 이야기를 숫자로 바꿔 보면 이렇게 정리됩니다. 가장 중요한 건 결국 '비용 한 가지'라고 생각합니다.

경험 한 건당 비용
= (모으는 비용 + 확인 비용 + 학습 비용 + 다시 넣는 비용 + 안전·실패 비용)
  ÷ 결과까지 확인된 경험 수

그리고 그 회사의 '방어력'은 대략 이런 모양일 거라고 봅니다.

방어력
≈ 결과 확인된 경험 수 × 자기만의 데이터 × 점수 품질 × 다시 반영하는 빈도 × 고객 장악력
  ÷ 경험 한 건당 비용

실제로 회사를 살펴볼 때 먼저 던지는 네 가지 질문을, 간단한 점수표로 만들어 봤습니다.

그림 4. 후보 회사를 살펴볼 때 보는 네 가지 숫자입니다. 새 데이터가 모델 개선으로 반영되기까지 걸리는 시간(④)이 짧을수록, 그만큼 빨리 좋아집니다.

이 밖에도 살펴볼 게 많습니다. 회사가 말하는 "학습 데이터 한 건"이 단순 기록인지 결과까지 확인된 경험인지, 점수가 자동으로 매겨지는지 사람이 일일이 붙여야 하는지, 잘못된 행동을 되돌리거나 사람이 중간에 멈출 수 있는지 같은 것들입니다. 다만 이 모든 걸 합쳐도, 결국 가장 중요한 질문은 하나인 것 같습니다.

"데이터가 많은가?"가 아니라 — "경험이 10배로 늘었을 때, 성공률과 비용과 불량률이 정말 좋아지는가?" 입니다.

7. 그래서 어떤 회사가 후보일까요

제 나름대로 강한 후보와 약한 후보를 나눠 봤습니다. 어디까지나 큰 그림에서의 분류입니다.

강한 후보

유형	왜 강하다고 보나 (예시)
자율주행·로보택시	실제 주행·안전 사고·끼어듦·모의 재생·다시 투입이 모두 있습니다 — Waymo
물류·창고 로봇	작업 성공·걸린 시간·파손률·개입 여부가 분명합니다 — Covariant, Physical Intelligence
산업 현장 AI	설비 기록·영상·작업·멈춘 시간·수율이 이어집니다 — Samsara, Palantir, Applied Intuition
코드 도우미 AI	테스트·빌드·배포·버그 수정 여부가 확인됩니다 — Cursor, Claude Code
실험실 자동화(바이오)	가설 → 실험 → 결과 → 재학습이 닫히면 매우 강합니다 — Recursion, Isomorphic, Insilico
국방 자율	센서·임무 결과·모의실험·실증이 결합됩니다 — Anduril 등 (비공개라 외부 확인은 어렵습니다)

약한 후보

유형	왜 약하다고 보나
단순 AI 껍데기 앱	행동도, 결과도 없습니다
데이터 판매 회사	원본만 있고 다시 학습에 넣는 구조가 없으면 약합니다
가짜 데이터만 만드는 회사	현실에서 확인하지 않으면 점수가 어긋날 수 있습니다
평가 도구 회사	평가만 하고 행동·학습·투입 권한이 없으면 수익을 거두기 어렵습니다
AI 기능만 얹은 소프트웨어	고객 업무와 결과를 쥐지 못하면 가치가 모델 회사로 흘러갑니다

8. 물론 반론도 있습니다

제 생각과 반대되는 이야기들도 분명히 있습니다. 함께 적어 두는 게 맞다고 봅니다.

"큰 모델은 여전히 중요합니다." 맞는 말씀입니다. '다음 기회가 스스로 배우는 구조에 있다'는 게 '모델을 키우는 일은 의미 없다'는 뜻은 결코 아닙니다. 거대 모델은 여전히 선생님 역할, 계획·추론의 머리, 세상을 이해하는 토대, 연습용 데이터를 만들어 주는 역할을 합니다. 다만 초과수익은 '누가 가장 크게 만들었나'보다 '그 모델을 어떤 자기만의 학습 구조에 연결했나' 에서 더 잘 나올 수 있다고 보는 정도입니다.

"현실에서의 학습은 느리고 비쌉니다." 맞습니다. 로봇은 고장 나고, 차는 사고가 나고, 실험은 시간이 걸리고, 병원·공장·국방 데이터는 규제가 셉니다. 잘못된 행동의 대가도 큽니다. 그래서 이 이야기는 모든 AI 회사에 해당하지는 않고, 그 비용을 낮출 수 있는 회사에만 해당한다고 보는 게 맞을 것 같습니다.

"자기만의 데이터는 양날의 검입니다." 너무 좁은 환경에서만 잘 돌면, 다른 곳에서는 안 통할 수 있습니다. 그래서 좋은 회사는 자기만의 데이터와 함께, 다양한 환경 경험·모의실험을 통한 확장·범용 모델과의 결합·실제 성과로의 확인 사이에서 균형을 잡는다고 생각합니다.

9. 정리하며 — 제 생각

이 주장은 투자에서 충분히 참고할 만하다고 봅니다. 다만 표현은 조금 더 조심스럽게 다듬고 싶습니다.

너무 단정적인 표현: "다음 기회는 더 큰 모델이 아니다."
제가 더 편하게 느끼는 표현: "더 큰 모델은 점점 '기본으로 갖춰야 할 것' 에 가까워지고, 추가적인 수익은 그 모델을 자기만의·확인 가능한·낮은 비용의 학습 구조에 연결한 회사에서 나올 가능성이 높다."

제가 특히 관심 있게 보는 영역은 세 가지입니다.

현실에서 움직이는 AI의 학습 인프라 — 로봇·자율주행·제조·물류·국방·에너지에서 모의실험·재생·평가·투입·안전 확인을 맡는 회사입니다. NVIDIA, Applied Intuition, Waymo 같은 모습입니다.
기업 업무를 실제로 처리하고 결과를 되받는 시스템 — AI가 실제로 일을 하고, 그 결과가 영업·고객지원·운영·재무 성과로 다시 돌아오는 구조입니다. Palantir, Samsara 같은 모습입니다.
과학 실험을 자동으로 도는 구조 — AI가 가설을 세우고 로봇 실험실이 실험하고 그 결과가 다시 모델로 들어가는 흐름입니다. 바이오·소재·화학 쪽인데, 돈과 시간이 많이 들어 난이도는 높은 편입니다.

그래서 앞으로 제가 더 눈여겨보려는 회사는 'AI를 잘 쓰는 회사'라기보다 — AI가 직접 움직일 수 있는 환경을 갖고 있고, 그 행동의 결과를 채점하고, 그 결과를 다시 모델 개선으로 되돌리는, 그 흐름을 자기 안에 닫아 둔 회사입니다. 물론 이건 정답이라기보다, 지금 제가 가진 가설에 가깝습니다.

이 글은 정보 공유이자 제 개인적인 생각이며, 특정 회사나 종목에 대한 투자 권유가 아닙니다.

참고

Andrej Karpathy, 2025 LLM Year in Review — karpathy.bearblog.dev
Waymo, Demonstrably Safe AI for Autonomous Driving — waymo.com
OpenAI, Introducing o3 and o4-mini — openai.com
NVIDIA, Expands Omniverse with Generative Physical AI — nvidianews.nvidia.com
Fei-Fei Li, From Words to Worlds: Spatial Intelligence — drfeifei.substack.com
Google DeepMind, Gemini Robotics — deepmind.google
Physical Intelligence (π) — pi.website
Covariant, Robotics Foundation Models and the Role of Data — covariant.ai
Palantir, Platform Overview — palantir.com
Samsara, AI's Real-World Impact — samsara.com
Applied Intuition — appliedintuition.com
Figure AI (TIME) — time.com