Microsoft Build 2026 · BRK210
Microsoft Build 2026 · BRK210

AI가 바꾸는 개발, 측정하는 건 성과입니다

토큰 사용량이 아니라 아이디어가 고객에게 닿는 속도로 생산성을 보는 Microsoft CoreAI의 EngThrive 프레임워크와, 실제로 효과를 낸 현장 사례를 함께 살펴봅니다.

46 슬라이드
스크롤하여 시작
01 / 46
Slide 1

오늘은 AI 시대에 개발 생산성을 어떻게 다시 봐야 하는지, 그리고 Microsoft가 실제로 쓰고 있는 EngThrive 프레임워크를 사례 중심으로 이야기해 보겠습니다. 저는 CoreAI의 Tim Bozarth입니다.

02 / 46
Slide 2

AI의 가치 제안

AI가 우리에게 주는 가치는 두 가지입니다. 하나는 우리 제품을 더 좋게 만드는 것이고, 다른 하나는 우리 자신, 즉 엔지니어링 조직을 더 강하게 만드는 것이죠. 오늘 초점은 바로 후자입니다.

03 / 46
Slide 3

오늘의 흐름

크게 세 부분으로 진행하겠습니다. 먼저 AI 시대의 생산성이 무엇인지, 다음으로 EngThrive 원칙, 그리고 마지막으로 실제 적용 사례를 보고 함께 이야기 나눠 보겠습니다.

04 / 46
Slide 4

먼저 근본적인 질문부터 짚어 보겠습니다. AI 시대에 '생산성이 높다'는 건 대체 무슨 뜻일까요?

05 / 46
Slide 5

코드를 얼마나 더 썼나?

모든 경영진이 한 번쯤 던지는 질문이 있죠. "AI로 우리 엔지니어들이 코드를 얼마나 더 많이 썼나?" 그런데 솔직히 이 질문의 답은 '글쎄요'입니다. 애초에 잘못된 질문이기 때문입니다.

06 / 46
Slide 6

시간은 어디에 쓰이나

엔지니어의 하루를 뜯어보면 실제로 코드를 짜는 시간은 일부일 뿐입니다. 설계, 검증, 운영, 소통에 훨씬 더 많은 시간이 들어가죠. 그래서 코드량만으로는 생산성을 말할 수 없습니다.

07 / 46
Slide 7

더 빠르게, 더 많은 가치

우리가 진짜로 원하는 건 코드를 더 많이 찍어내는 게 아니라, 더 많은 가치를 더 빠르게 만들어 내는 것입니다. 목표를 여기에 두면 측정 방식도 달라져야 합니다.

08 / 46
Slide 8

개발 루프의 변화

개발이 돌아가는 방식, 그 루프 자체가 바뀌고 있습니다. 우리가 코드를 다루는 방법이 근본부터 달라지고 있는 거죠.

09 / 46
Slide 9

세 번의 물결

변화는 세 물결로 옵니다. 처음엔 LLM에게 질문을 던졌고, 다음엔 에이전트에게 일을 맡겼죠. 그리고 지금 떠오르는 세 번째 물결은, 여러 에이전트로 이루어진 팀을 목표를 향해 지휘하는 단계입니다.

10 / 46
Slide 10

클래식 SDLC

기존의 소프트웨어 개발 수명주기, 이른바 클래식 SDLC를 떠올려 보겠습니다. 요구사항부터 배포까지 사람이 각 단계를 직접 밟아 나가는 방식이었죠.

11 / 46
Slide 11

클래식 SDLC, 다시 보기

이 흐름을 조금 더 들여다보면 각 단계마다 사람의 손이 촘촘하게 들어가 있습니다. 바로 여기가 AI가 개입하면서 크게 달라지는 지점입니다.

12 / 46
Slide 12

AI-Max SDLC

그래서 등장하는 게 AI를 최대한 끌어올린 AI-Max SDLC입니다. 반복적이고 정형화된 일은 AI가 맡고, 사람은 더 높은 판단에 집중하는 구조로 바뀝니다.

13 / 46
Slide 13

코드는 결과물, 입력이 아니다

여기서 관점을 완전히 뒤집어야 합니다. 이제 코드는 우리가 애써 넣는 입력이 아니라, 의도로부터 만들어지는 결과물에 가깝습니다. 이게 지평선 너머로 다가오는 변화입니다.

14 / 46
Slide 14

모델 역량은 균일하지 않다

다만 모델 능력이 모든 영역에서 똑같이 좋아지는 건 아닙니다. 코딩은 무섭게 발전하지만 시스템 설계나 검증, 운영, 그리고 이른바 '감각'은 개선이 더디죠. 그래서 사람의 역할이 그쪽으로 옮겨갑니다.

15 / 46
Slide 15

최고 팀의 모습도 바뀐다

결국 가장 높은 성과를 내는 팀의 모습 자체가 달라지고 있습니다. 손이 빠른 팀이 아니라, AI를 잘 지휘해 성과를 뽑아내는 팀이 앞서가게 되는 거죠.

16 / 46
Slide 16

바뀐 것과 바뀌지 않은 것

AI는 우리가 일하는 방식의 거의 모든 걸 바꿔 놓았습니다. 하지만 생산성을 어떻게 측정하느냐, 그 기준까지 바꾸지는 못합니다. 성과의 본질은 그대로입니다.

17 / 46
Slide 17

이제 우리가 이 문제를 어떻게 풀어가는지, EngThrive의 원칙들을 살펴보겠습니다.

18 / 46
Slide 18

훌륭한 일을 쉽고 빠르게

핵심 철학은 단순합니다. 훌륭한 일을 빠르고 쉽게 할 수 있게 만들자는 겁니다. 우리가 어떻게 일하는가, 그리고 무엇을 만들어 내는가, 이 두 축 모두에서요.

19 / 46
Slide 19

임팩트를 이해하는 세 축

그 임팩트를 이해하기 위해 세 가지를 봅니다. 얼마나 빠른가(Speed), 얼마나 수월한가(Ease), 그리고 결과물의 품질(Quality)이 어떤가입니다.

20 / 46
Slide 20

활동 vs 성과

여기서 가장 중요한 구분이 나옵니다. 바로 활동(Activity)성과(Outcome)를 헷갈리면 안 된다는 것입니다.

21 / 46
Slide 21

활동·산출·성과

지표는 세 층으로 나눠 볼 수 있습니다. AI 사용량이나 토큰 사용 같은 '어떻게 일했나(활동)', PR 수 같은 '무엇을 했나(산출)', 그리고 아이디어가 고객에게 닿는 시간 같은 '무엇을 이뤘나(성과)'입니다. 우리가 봐야 할 건 맨 마지막이죠.

22 / 46
Slide 22

토큰 맥싱의 함정

활동에만 매달리면 이른바 '토큰 맥싱(Token Maxing)'이 벌어집니다. 숫자는 화려하게 올라가는데 정작 만들어진 가치는 없는, 딱 피해야 할 상황이죠.

23 / 46
Slide 23

시스템을 측정하라

그리고 개인을 줄 세워 측정하는 게 아니라 시스템을 측정해야 합니다. 병목은 대부분 개인이 아니라 우리가 만든 프로세스에 있으니까요.

24 / 46
Slide 24

임팩트를 푸는 질문들

세 축을 실제 질문으로 바꿔 보면 이렇습니다. 아이디어가 고객 손에 닿기까지 몇 시간이 걸리나, 진짜 가치를 만드는 데 시간을 얼마나 쓰나, 그리고 결함과 회복력, 경험 같은 품질은 어떤가입니다.

25 / 46
Slide 25

핵심 EngThrive 지표

그래서 우리의 핵심 지표는 이렇게 정리됩니다. Speed는 Idea-to-Customer와 Time-To-Nth-PR, Ease는 Innovation Time과 Bad Developer Days, Quality는 PRs-Per-Incident와 사고 완화 시간, 그리고 전반적인 만족도인 NSAT까지 함께 봅니다.

26 / 46
Slide 26

지표가 있다, 그다음은?

자, 이제 지표는 갖췄습니다. 그런데 지표만 있다고 달라지진 않죠. 진짜 질문은 '그다음에 무엇을 하느냐'입니다.

27 / 46
Slide 27

운영 원칙

운영에는 세 가지 원칙이 있습니다. 병목을 찾아 이해하고 실제로 해결할 것, 개발자 경험에 대해 리더가 책임을 질 것, 그리고 점수표로 줄 세우지 말고 지속적인 개선을 함께 축하할 것입니다.

28 / 46
Slide 28

EngThrive 프로그램의 북극성

프로그램의 북극성은 명확합니다. 회사 전체에 일관된 개발자 경험 지표를 두고, 누구나 볼 수 있는 대시보드로 데이터를 열어 주고, 변화를 이끄는 업무 프로세스를 만들어 개선의 실마리를 계속 얻는 것입니다.

29 / 46
Slide 29

지금 시작하는 게 정답

성숙도를 끝까지 끌어올리는 건 분명 어려운 최적화 과제입니다. 하지만 초반에 얻을 수 있는 성과 구간이 분명히 있고, 무엇보다 시작하기에 지금보다 좋은 때는 없습니다.

30 / 46
Slide 30

이제 이론에서 현장으로 넘어가 보겠습니다. 데이터에서 인사이트로, 다시 행동으로, 그리고 임팩트로 이어지는 실제 사례들입니다.

31 / 46
Slide 31

CoreAI 집중 시간 이니셔티브

첫 번째 사례는 CoreAI에서 진행한 Focus Time, 집중 시간 이니셔티브입니다.

32 / 46
Slide 32

왜 집중 시간인가

개발자는 몰입 상태로 들어가려면 방해받지 않는 집중 시간이 필요합니다. 집중 시간이 늘면 생산성도, 만족도인 NSAT도 함께 올라가죠. 그래서 목표를 잡았습니다. 한 주의 대부분을 두 시간 이상 보호된 딥워크 블록으로 확보하자는 것이었습니다.

33 / 46
Slide 33

플라이휠 돌리기

플라이휠은 이렇게 돌리기 시작했습니다. 먼저 공유할 지표 하나를 정하고, 책임 소재가 분명한 역할을 나누고, 격주로 리뷰와 회고를 돌리고, 모든 대화를 EngThrive 데이터 위에서 나눴습니다.

34 / 46
Slide 34

집중 시간, 실제로 한 일

구체적으로는 회의를 예측 가능한 시간대로 묶어 큰 블록을 만들고, 아젠다 없는 회의를 없애 회의 위생을 개선했습니다. 또 'AM 싱크 / PM 씽크' 같은 규칙으로 딥워크 시간을 보호하고, 대시보드로 집중 시간이 낮은 팀을 찾아 코칭하며, 온콜 패턴 같은 구조적 원인까지 손댔습니다.

35 / 46
Slide 35

집중 시간, 얻어낸 성과

결과는 뚜렷했습니다. 개발자 한 명당 주 2.1시간의 집중 시간이 늘어 총 5만 5천 딥워크 시간을 확보했고, PR 속도는 13% 올라 개발자 약 350명분의 역량에 해당했습니다. Bad Developer Days는 25% 줄었고, 상태 보고 회의와 멀티태스킹도 함께 감소했죠.

36 / 46
Slide 36

왜 이 사례인가

이 사례를 고른 이유가 있습니다. 거창한 도구가 아니라, 데이터를 근거로 일하는 방식을 바꿨더니 실제 성과로 이어졌다는 걸 보여주기 때문입니다.

37 / 46
Slide 37

첫 PR까지의 시간

두 번째 사례는 Time to First Pull Request, 신규 입사자가 첫 PR을 올리기까지의 시간입니다.

38 / 46
Slide 38

무엇을, 왜 보나

이 지표는 새 엔지니어가 입사해서 첫 풀 리퀘스트를 완료하기까지 걸린 시간을 말합니다. 왜 중요하냐면, 더 빨리 코딩을 시작한 엔지니어일수록 장기적으로 더 좋은 성과를 내기 때문입니다.

39 / 46
Slide 39

첫 PR, 우리가 한 일

그래서 첫 주 온보딩 체크리스트에 AI 기반 'First Pull Request' 활동을 넣었습니다. PR 워크플로 문서를 개선하고, PR 완료 실습 영상을 만들고, 첫 PR 경험이 왜 중요한지 관리자 교육까지 함께 진행했습니다.

40 / 46
Slide 40

지표를 조작할 수 있지 않나?

여기서 당연히 이런 반론이 나옵니다. "그 지표, 그냥 아무 의미 없는 커밋 하나 올리면 게임할 수 있는 거 아니냐?" 아주 좋은 질문이죠. 데이터를 보면 답이 나옵니다.

41 / 46
Slide 41

데이터로 확인

실제 통계를 보면 그런 편법은 유의미한 영향을 주지 못합니다. 첫 PR을 빨리 낸 사람들은 이후에도 꾸준히 실질적인 기여로 이어졌거든요.

42 / 46
Slide 42

N번째 PR까지의 시간

그래서 한 걸음 더 나아가 Time to Nth PR도 봅니다. 놀랍게도 개발자가 10번째 PR에 이를 즈음이면, 그 사람이 앞으로 2년 뒤 어떤 엔지니어가 될지를 상당히 예측할 수 있습니다.

43 / 46
Slide 43

왜 이 사례인가

이 사례가 말해 주는 건, 겉보기엔 조작 가능해 보이는 지표라도 제대로 설계하고 데이터로 검증하면 진짜 신호를 준다는 것입니다.

44 / 46
Slide 44

핵심 정리

오늘의 핵심은 세 가지입니다. 활동이 아니라 성과를 보라, 개선을 이끌고 책임을 만드는 운영 리듬(RoB)을 세워라, 그리고 AI를 활용해 오래된 병목을 돌파하라는 것입니다.

45 / 46
Slide 45

더 알아보기

세션 상세 페이지에는 튜토리얼과 자료, 코드가 준비되어 있으니 꼭 활용해 보세요. 그리고 aka.ms/build/evals에 방문하거나 QR 코드를 스캔해서 설문에 참여해 주시면 큰 도움이 됩니다.

46 / 46
Slide 46

감사합니다

들어주셔서 감사합니다.