“영상 이해가 ‘인간다움’의 시작”...국가대표 AI 스타트업 ‘트웰브랩스 [SDF다이어리 Ep.255]

2025. 8. 16.

“영상 이해가 ‘인간다움’의 시작”... ①국가대표 AI 스타트업 ‘트웰브랩스’ [SDF다이어리 Ep.255]

국가대표 AI모델 선발전이 본격적으로 시작됐습니다. 네이버, LG, SK 등 국내 내로라하는 기업들이 한국형 독자파운데이션 모델을 만들겠다고 출사표를 던졌습니다. 이번에 뽑힌 5개 정예팀은(컨소시엄) 6개월에 한 번씩 평가를 거쳐 2027년 2개 팀만 남게 됩니다.

컨소시엄을 주도한 굵직한 기업들과 손을 잡은 스타트업들도 있습니다. SDF는 5개 정예팀에 속한 스타트업들을 조명합니다. 첫 번째 순서로 트웰브랩스를 만나봤습니다. ‘영상 이해 AI 기술’로 엔비디아 등으로부터 투자를 받는 등 창업 4년 만에 2천억 원 투자를 유치한 스타트업입니다.

이승준 CTO에게 이번 선발전에서 어떤 한국형 파운데이션 모델을 개발할 것인지, 앞으로 트웰브랩스가 가고자 하는 길이 무엇인지 물어봤습니다.

<이승준 CTO 겸 공동창업자>

※이번 한국형 독자 파운데이션 모델 개발 사업의 핵심은 컨소시엄 구성입니다. 트웰브랩스는 네이버 클라우드, 네이버, 서울대, 카이스트, 포항공대, 고려대, 한양대와 팀을 구성했습니다.

Q. 컨소시엄 구성 단계에서 대기업들로부터 굉장히 많은 러브콜을 받았다고 들었는데 트웰브랩스를 잘 모르는 사람들을 위해 회사와 기술 소개 부탁드립니다.

저희는 영상 이해 AI 기술을 만드는 스타트업입니다. 수많은 영상들 중에서 내가 원하는 장면을 빠르게 검색해 주는 ‘영상 검색 기술’, 그리고 영상이 주어졌을 때 요약이나 챕터, 혹은 하이라이트를 만들어줄 수 있는 기술, 이렇게 두 가지 기술을 만들고 있습니다.

고객사로 설명을 드리면 북미의 가장 큰 스포츠 엔터테인먼트 회사인 MLES가 저희 고객사 중 한 곳인데 아이스하키팀과 농구 토론토랩터스 등의 구단을 소유하고 있습니다. 그 구단에서 보유하는 30~40년 치 영상이 있는데 팬의 입장에서 특정 영상을 검색하는 데 도움을 주거나, 어떤 선수의 스킬이 15년 전 스킬과 유사하다 하면 이런 것들을 새로운 영상으로 편집해 줍니다.

공공안전 부문에서도 쓰이는데, 수천 대의 CCTV 카메라 속에 누군가 쓰러져 있는 장면이나 산불이 시작된 장면을 1초 안에 찾아낼 수 있습니다. 실시간 탐지도 가능한 실증 사례가 있습니다. 이처럼 영상에 특화된 AI 기술을 보유하니 영상 이해를 필요로 하는 모델을 개발하는 데 기여도가 클 것으로 보여 저희에게 관심이 많았던 것 같습니다.

Q. 주관사로 참여한 많은 기업들 중 네이버와 함께한 이유가 무엇인가요?

이 사업의 취지가 ‘전 국민이 사용할 수 있는 AI’라고 했을 때 이미 전 국민이 사용하는 플랫폼을 만들어본 경험이 있는 기업이라는 점이 크게 영향을 미친 것 같습니다. 국민에게 와닿는 AI 기술이란 결국 어떻게 서비스적으로 영향을 미칠 것인지인데, 네이버가 이와 관련해 많은 경험과 노하우가 있습니다.

Q. 선발전에서 만들고자 하는 ‘K-AI’ 모델은 어떤 모델인가요?

‘옴니’ 모델, ‘Any to Any’ 모델이라고 표현합니다. 여기서 Any는 데이터의 형태라고 보시면 됩니다. 텍스트, 이미지, 오디오, 영상 등이 인풋으로 들어와서 아웃풋 역시 텍스트, 이미지, 오디오, 영상 등으로 나올 수 있는 그런 모델입니다. 음성으로 ‘이런 거 해줘’라고 했을 때 영상이 나올 수도 있고 이미지를 생성할 수도 있습니다. 또 영상을 넣었을 때 텍스트로 요약본이 나올 수도 있습니다. 데이터의 형태와 관계없이 인풋 아웃풋이 자유롭게 오가는 모델입니다. 모든 데이터 종류를 다 처리하고 생성하는, 어떻게 보면 데이터 모달리티를 초월하는 모델이죠.

Q. 챗지피티 같은 LLM에 사진을 입력하고 ‘이것 좀 지워줘, 합성해 줘’ 했을 때 시간이 오래 걸린다든가 오류가 나는 경우가 많은데 그런 기술에 특화된 모델이라는 말인가요?

네 그리고 해외 LLM이 이미지나 영상, 텍스트를 생성할 때 한국의 언어, 문화와 역사 등이 잘 고려되지 않은 경우가 많은데 그 부분이 보완된 모델을 만들려 합니다.

Q. 업계에선 해외 LLM과 견줄 만한 모델을 만들지 못하고 제2의 공인인증서로 전락할 거란 비판도 많은 상황입니다. 개발될 모델의 영향력을 어느 정도로 보시나요?

목표를 어디에 두냐가 굉장히 중요할 것 같습니다. 저희 컨소시엄이 지금 이 독자 AI 파운데이션 모델을 통해 얻고자 하는 목표가 한국에 없는, 국민에게 필요한 ‘모델’이라고 했을 때 그 부분에 있어서는 저희가 가장 적합한 모델을 개발할 수 있을 것 같습니다. 모델 개발 후에는 B2B, B2C 두 가지 방향으로 다 쓰일 수 있을 거 같습니다.

Q. 트웰브랩스 이야기로 돌아가면 국내 기업 최초로 아마존 웹서비스 ‘베드록’에 이름을 올린 기업이란 타이틀이 있습니다. 무슨 의미고 어떤 좋은 점이 있는 건가요?

아마존 베드록 서비스에 대해 잘 모르실 것 같은데 쉽게 말하면 서점의 베스트셀러 코너입니다. 아마존이라는 플랫폼에 엄선된 AI 모델들이 모여있는 서비스인데, 메타의 라마, 미스트랄 등 프런티어 랩들의 모델 총 12가지가 올라와 있는 서비스고요. 전 세계 유료 구독자들, 주로 개발자들이 사용합니다. 아마존이 장기간에 걸쳐 저희의 기술력을 테스팅했고 국내 기업 최초로 선정이 돼 올라가게 됐습니다.

Q. 97년생 메타 AI 최고 책임자로 유명한 알렉스 왕이 엔젤 투자자였고, 엔비디아 등도 투자한 것으로 유명한데 지금까지 투자 누적액은 얼마인가요?

2021년 창업 후 현재까지 누적 투자액은 한화로 대략 천 오백억원 이상입니다.

Q. 해외기업들이 트웰브랩스의 기술을 높게 평가하는 이유가 뭘까요

저희 모델은 현재까지 1억 시간 정도의 영상을 학습했고요. 저희처럼 영상 검색과 영상 설명, 요약을 다 할 수 있는 기술을 보유하는 곳은 현재까지 없는 것으로 알고 있습니다. 단순 영상 검색뿐 아니라 영상 이해에 필요한 전체 인프라를 풀스택으로 가지고 있어서 더 주목받는 것 같습니다.

Q. 해외에서도 주목받는 이 영상 AI 기술은 언제, 어떻게 개발하게 된 건가요?

현재 트웰브랩스 대표를 포함해 공동창업자들은 모두 군대에서 만났습니다. 2020년 GPT3라는 최초의 언어 모델이 나와서 세상을 떠들썩하게 했을 때였습니다. 저희는 이렇게 ‘텍스트 데이터’가 언어 모델을 정복할 수 있다면 다음 데이터 모달리티는 뭘까? 전 세계의 데이터 80%는 영상인데, 그럼 영상을 이해하는 모델이 되어야 하지 않을까? 하는 질문에서 시작하게 됐습니다.

개인적으로는 원래 영상이라는 데이터에 흥미가 많았습니다. 영상을 이해한다는 게 세계를 이해하는 것과 비슷합니다. ‘월드 데이터’라고도 표현을 하는데 어렸을 때 기억이 뇌에 저장돼있는 것처럼 기계에 데이터 형태로 저장되는 게 영상입니다. 그럼 이 영상을 이해한다는 건 결국 나의 기억, 세계를 이해하는 것이라는 생각이 들었고, 영상 이해가 된다면 세계를 이해하는 지능을 개발할 수 있다고 깨닫게 됐습니다.

Q. 이 영상 AI 기술이 앞으로 어떤 산업 분야에서 가장 빠르게 확산될 것으로 보시나요?

전 산업에서 다 활용이 될 것 같은데 카메라 등을 활용하는, 물리 세계에 직접 닿아있는 산업에서 많이 활용될 것 같습니다. 미디어는 당연하고 공공안전, 제조, 국방, 로보틱스까지 활용 될 거라고 봅니다.

Q. 피지컬 AI로의 관심이 커지고 있는 상황인데 트웰브랩스의 기술이 어떻게 활용될까요?

저희의 기술이 로봇의 눈과 귀를 달아준다고 생각을 하고 있어요. 세상을 이해하는 데이터를 영상의 형태로 제공하다보니까 로봇들에게 눈과 귀가 되지 않을까 싶습니다.

Q. 앞으로 추가로 개발하고자 하는 기술은 어떤 것인가요?

현재 영상 AI 모델의 한계점은 ‘하나의 영상을 가지고 추론이나 판단한다는 것’입니다. 비유를 들자면 내가 어떤 방에 들어왔는데 그 방의 현재 상태만 가지고 판단할 수밖에 없다는 겁니다. 이 방에서 5년 전에 있었던 사건이라든지 이 방뿐만 아니라 다른 집 전체의 구조를 가지고 판단할 수 있는 능력을 갖고 있지 않습니다. 그래서 저희가 다음으로 바라보는 건 이런 과거라든지 다른 공간에 있는 것까지 고려해 판단하는 지능의 개발입니다. 산업으로 예시를 들면 특정 공공장소에서 1년 전에 있었던 사건과 3년 전에 다른 빌딩에서 있었던 사건을 서로 연계를 시킬 수도 있다는 거죠. 새로운 기술력이고 다른 차원의 기술력입니다.

Q. 해외 빅테크들이 도전하고 있는 ‘초지능’의 영역이라고 봐도 될까요?

네, 시, 공간을 초월하는 AI라고 보시면 됩니다. 인간이 보유한 기억이나 볼 수 있는 건 한계가 있는데 그걸 넘어서는 더 많은 양의 영상들을 처리할 수 있는 시스템입니다.

Q. 실리콘밸리 창업 붐은 더 뜨거워지는 추세인데 트웰브랩스가 한국 스타트업임에도 불구하고 미국 시장에서 주목받게 된 이유는 뭐라고 생각하세요?

결국 비전이라고 생각합니다. 한국 시장에서 통하는 기술력, 제품을 만들고자 할 때와 글로벌 시장에서 통하는 걸 만들고자 할 때의 비전은 크게 다른 것 같습니다. 실리콘밸리에서는 전 세계에 통하는 기술력과 제품을 만들고자 하는 비전이 있어야 성공할 수 있습니다. 저희는 ‘전 세계에서 가장 강력한 영상 이해 모델을 만들자’ 하는 비전을 초기에 세우고 그 목표대로 달려왔는데 초기 비전 설정의 영향이 컸던 것 같습니다.

Q. 한국이 AI 시장에서 경쟁력을 가지기 위해 가장 잘해야 할 것은 뭘까요? 우리나라만의 강점이란?

결국엔 인재 확보인 것 같습니다. 한국에는 해외에서도 주목하는 엔지니어 풀이 있다고 생각합니다. 해외로 나가는 인재들을 막고 한국에 유치할 수 있도록 더 적극적인 투자가 필요합니다. 산업적으로 봤을 땐 K컬처에 대한 관심이 뜨겁기 때문에 그 분야나, 제조 강국의 특성을 잘 살려서 제조업이라는 분야에서 특화된 AI 기술을 개발하는 것이 중요할 것 같습니다.

Q. CTO님이 생각하는 ‘이 시대의 혁신’이란 무엇일까요?

혁신이란 건 결국 사람들에게 와닿아야 한다고 생각합니다. 지금 전 세계에선 최초로 인간보다 뛰어난 지능의 존재가 나타나려고 하고 있거든요. 특정 분야에선 이미 인간을 넘어섰다는 이야기도 많고요. 그럼 이런 초지능적인 존재가 있을 때 인간이 어떻게 또 진화를 해야 할까, 거기서부터 새로운 혁신이 있지 않을까 싶습니다. 이 시대의 혁신은 초지능을 마주했을 때의 인간에서 나타날 거라고 생각합니다.

트웰브랩스는 영상에 대한 이해가 곧 인간과 비슷한, 혹은 더 뛰어넘는 지능으로 가는 길이라는 인사이트를 갖고 달려왔습니다. 이 비전이 한국형 독자 파운데이션 모델 개발에 어떻게 영향을 줄지 기대가 됩니다. 앞으로 토요일마다 국가대표 AI모델에 도전하는 스타트업들을 소개합니다. 많은 관심 부탁드립니다.

글: 여현교 기자, yhg@sbs.co.kr

지난주 SDF2025 D-99 기념이벤트에 참여해주신 분들 모두 감사드립니다♥️

추첨을 통해 뽑은 당첨자를 공개합니다!

스타벅스 1만 원권 (5명):
fondant_me / iseungjin321 / jinyhyo / ieunu4985 / inspir8ion_4u

스타벅스 아이스 커피 기프티콘 (10명):
yooooo__naa / yangmyoumg / elika323 / iam_minggun / emrdgreen_soo
/ running_aek / shinbuns / ssong2_knit / ddoza9 / qkryf

※당첨자는 SNS DM으로 개별 연락드렸으니 확인 부탁드립니다※

SDF 다이어리는 SDF 참가자 중 수신 동의하신 분들과 SDF 다이어리를 구독한 분들께 발송되었습니다.

📬 SDF 다이어리에서 나눈 지난 이야기

2025.8.6│2025 D포럼 D-99일, 곧 여러분을 찾아갑니다! (두둥! 주제 공개) [Ep.254]

2025.7.30│SK하이닉스가 AI시대 엔비디아와 손 잡을 수 있었던 이유? [Ep.253]

2025.7.25│숨 막히는 공무원 계급제... 대한민국에 ‘재앙’ [Ep.252]

📭 구독 추천은 이 링크(https://page.stibee.com/subscriptions/67025)를 복사해서 전달해주세요.

📪 수신거부를 원하신다면 여기를 눌러주세요.

게시하기

웹에서 보기

SDF를 만드는 사람들

이정애 기자 : 다양한 사람들이 머리를 맞대고 마음을 모으면 해결하지 못하는 문제는 없다 믿으며 SBS D포럼을 총괄 기획해 오고 있습니다. 사회부, 국제부, 경제부, 시사고발프로그램 ‘뉴스추적’ 등을 거쳤으며 2005년부터 ‘미래부’에서 기술과 미디어의 변화, 그리고 보다 나은 세상을 위해 어떻게 다르게 같이 살아가야 할 지 고민해 오고 있습니다.

정연 기자 : 우리 미래를 위해 들여다보고 나아가야 할 길을 고민합니다.

여현교 기자 : 우리 사회에 생기는 궁금증을 콘텐츠로 풀어내고 싶습니다.

정영태 기자 : 함께 다시 쓰는 미래를 기대합니다.

우승현 부장 : '문화'가 붙는 모든 것의 스밈과 작동 방식에 지속적 호기심을 가지고 있습니다.

정준기 PD : 프로듀서로서 TV와 온라인, 제작과 마케팅의 길을 두루두루 거쳐 2025년부터 SDF에 둥지를 트게 되었습니다. 제작 사업의 다양한 노하우와 경험을 살려 최고의 브랜드 SDF를 한층 더 멋지게 빛내는 데 보탬이 되고자 합니다. Cool SDF~~!!

정선년 작가 : SDF를 통해 많은 사람들과 소통하고 싶습니다.

변가연 작가 : 빠르게 변하는 시대에 우리가 이어 나가야 할 가치가 무엇일지 함께 고민하고 싶습니다.

임세종 촬영감독 : 현재 SDF 팀의 촬영 감독을 맡고 있습니다. 사람들과 협업을 중요시하는 프리랜서로 다양한 활동을 하고 있습니다.

이보연 아트디렉터 : SDF의 그래픽을 담당하고 있습니다. SDF의 지식을 레터와 콘텐츠를 통해 많은분들과 공유하고 공감하고 싶습니다.

미래를 여는 담대한 도전 SBS SDF │ sdf@sbs.co.kr

서울시 양천구 목동서로 161 SBS방송센터 보도본부 논설위원실 미래팀

수신거부 Unsubscribe