Microsoft Build 2026 · BRK260
Microsoft Build 2026 · BRK260

모든 Windows PC에서 돌아가는 무제한 로컬 AI

클라우드 요금도, 네트워크 지연도 없이 내 PC의 CPU·GPU·NPU에서 바로 실행되는 AI로 앱을 만드는 세 가지 길을 소개합니다. Microsoft Foundry on Windows로 성능과 도달 범위를 동시에 잡는 방법을 다룹니다.

42 슬라이드
스크롤하여 시작
01 / 42
Slide 1

오늘은 모든 Windows PC에서 무제한으로 쓸 수 있는 로컬 AI로 앱을 만드는 방법을 이야기해 보겠습니다. 클라우드에 의존하지 않고 기기 위에서 바로 지능을 돌리는 이야기입니다.

02 / 42
Slide 2

발표자 소개

저는 Windows ML 담당 PM Anastasiya Tarnouskaya이고, 함께하는 Aditi Narvekar는 Windows AI APIs를 맡고 있습니다. 오늘 두 사람이 번갈아 가며 로컬 AI의 전체 그림을 보여드리겠습니다.

03 / 42
Slide 3

모든 PC 위의 무제한 지능

이미 5억 대가 넘는 PC에서 로컬 AI 워크로드가 돌아가고 있습니다. Microsoft Foundry on Windows는 성능을 최대로 끌어내면서 도달 범위까지 넓혀, AI 우선 시대에 효율적으로 지능을 배포하게 해 줍니다.

04 / 42
Slide 4
▶ 영상

Foundry on Windows 영상

먼저 짧은 영상으로 Microsoft Foundry on Windows가 무엇을 할 수 있는지 감을 잡아 보시죠.

05 / 42
Slide 5

로컬 AI가 필요한 이유

왜 굳이 로컬 AI일까요? 데이터가 기기를 떠나지 않으니 프라이버시와 보안에 강하고, 지연이 낮고, 네트워크 없이도 동작하며, 비용까지 아낄 수 있습니다.

06 / 42
Slide 6

로컬 AI의 네 가지 가치

이 네 가지, 즉 프라이버시와 보안, 낮은 지연, 오프라인 동작, 비용 효율이 바로 우리가 로컬로 가야 하는 이유입니다. 이걸 실제로 가능하게 해 주는 게 다음에 소개할 Foundry on Windows입니다.

07 / 42
Slide 7

Microsoft Foundry on Windows

Foundry on Windows는 세 개의 층으로 이뤄져 있습니다. 바로 쓰는 Windows AI APIs, 오픈소스 모델을 로컬로 돌리는 Foundry Local, 그리고 내 커스텀 모델을 위한 추론 프레임워크 Windows ML입니다. 이 셋이 모두 GPU·NPU·CPU 위에서 동작합니다.

08 / 42
Slide 8

Unmetered Token Café

오늘 발표 내내 함께할 예시로 'Unmetered Token Café'를 소개합니다. 고객 주문, 마케팅 콘텐츠, 재고 관리, 커뮤니티 이벤트, 실험적인 신메뉴까지 — 이 카페의 모든 기능을 로컬 AI로 구현하면서 세 개 층을 하나씩 보여드리겠습니다.

09 / 42
Slide 9

이제 첫 번째 층, Windows AI APIs부터 살펴보겠습니다. 가장 빠르게 로컬 AI를 앱에 넣는 방법입니다.

10 / 42
Slide 10

바로 쓰는 턴키 API

Windows AI APIs는 흔한 로컬 AI 시나리오를 위한 턴키 API를 제공합니다. 모델을 직접 준비할 필요 없이, 함수 하나 부르듯 요약이나 음성 인식 같은 기능을 바로 앱에 넣을 수 있습니다.

11 / 42
Slide 11

데모: 음성 인식 API

먼저 Qualcomm Snapdragon이 들어간 Surface Pro에서 음성 인식 API를 시연해 보겠습니다. 카페에서 고객 주문을 받아 적는 장면을 떠올리시면 됩니다.

12 / 42
Slide 12

NPU 활용

이 작업은 NPU 위에서 돌아갑니다. 전용 가속기가 있으니 CPU를 붙잡지 않고도 효율적으로 처리할 수 있죠.

13 / 42
Slide 13

NPU와 CPU

NPU가 없거나 부족할 때는 CPU로도 자연스럽게 넘어갑니다. 기기마다 가진 하드웨어에 맞춰 알아서 최적의 조합을 씁니다.

14 / 42
Slide 14

NPU·CPU·GPU 전체 활용

결국 NPU, CPU, GPU까지 세 종류의 프로세서를 모두 활용할 수 있습니다. 어떤 Windows PC에 배포하든 그 기기의 성능을 최대한 끌어내는 겁니다.

15 / 42
Slide 15

데모: GPU 위의 Phi Silica

이번엔 NVIDIA GeForce RTX 5090이 탑재된 Razer Blade 18에서, Phi Silica를 GPU 위에서 돌려 보겠습니다.

16 / 42
Slide 16
▶ 영상

Outlook 요약 데모

영상으로 보시는 건 GPU 위의 Phi로 Outlook 메일을 요약하는 모습입니다. 강력한 GPU를 갖춘 기기에서는 이렇게 더 큰 작업도 순식간에 처리됩니다.

17 / 42
Slide 17

새로 늘어난 Windows AI APIs

Windows AI APIs는 계속 확장되고 있습니다. 대화 요약, 다시 쓰기, 이미지 설명 같은 정식 출시 API에 더해, LoRA 커스터마이징, 시맨틱 검색, 이미지 생성과 OCR까지 다양한 시나리오를 커버합니다.

18 / 42
Slide 18

이제 GPU·CPU에서도

그리고 중요한 변화가 있습니다. 이 API들이 이제 NPU뿐 아니라 GPU와 CPU에서도 동작합니다. 덕분에 특정 하드웨어가 없는 PC에도 훨씬 넓게 도달할 수 있게 됐습니다.

19 / 42
Slide 19

데모: ClipChamp 영상 화질 개선

AMD Ryzen AI MAX+ 395 NPU가 들어간 ASUS ROG Flow Z13에서, ClipChamp의 Video Super Resolution을 시연합니다. 카페 홍보 영상을 로컬에서 또렷하게 업스케일하는 셈이죠.

20 / 42
Slide 20

데모: Aion으로 Prompt API

Intel이 들어간 Surface Laptop for Business에서 Edge의 Prompt API를 Aion으로 써 봅니다. 궁금하시면 aka.ms/TryAion에서 직접 체험해 보실 수 있습니다.

21 / 42
Slide 21

이제 두 번째 층, Foundry Local로 넘어가겠습니다. 인기 있는 오픈소스 모델을 로컬에서 그대로 돌리고 싶을 때 쓰는 방법입니다.

22 / 42
Slide 22

오픈소스 모델을 로컬로

Foundry Local은 검증된 오픈소스 모델들을 미리 최적화된 형태로 제공해, 내려받아 바로 로컬에서 실행하게 해 줍니다. 턴키 API보다 한 단계 더 유연하게 원하는 모델을 고를 수 있죠.

23 / 42
Slide 23

Foundry Local SDK 데모

Blackwell 아키텍처의 RTX 5090이 탑재된 Razer Blade 18에서 Foundry Local SDK를 시연해 보겠습니다. 코드 몇 줄로 모델을 불러와 추론하는 모습을 보실 수 있습니다.

24 / 42
Slide 24

모델 카탈로그와 SDK

GPT OSS, DeepSeek, Mistral, Qwen, Phi, Whisper 같은 모델을 카탈로그에서 골라 CPU·GPU·NPU 어디서든 돌릴 수 있습니다. Foundry Local SDK와 CLI, Core API를 통해 앱에 손쉽게 붙입니다.

25 / 42
Slide 25

마지막 세 번째 층은 Windows ML입니다. 남이 만든 모델이 아니라 내가 직접 만든 커스텀 모델을 돌려야 할 때 바로 이 층이 필요합니다.

26 / 42
Slide 26

커스텀 모델을 위한 프레임워크

Windows ML은 어떤 커스텀 모델이든 받아들이는 로컬 AI 추론 프레임워크입니다. 위의 두 층이 모두 이 Windows ML 위에서 돌아간다는 점이 핵심이죠.

27 / 42
Slide 27

모든 층의 기반

다시 강조하면, Windows AI APIs도 Foundry Local도 결국 이 Windows ML을 토대로 삼습니다. 가장 밑단에서 하드웨어와 모델을 이어 주는 공통 엔진인 셈입니다.

28 / 42
Slide 28

시나리오: 실험적인 신메뉴

카페 예시로 돌아와서, 메뉴 리뷰를 긍정·중립·부정으로 분류하는 감성 분석을 하고 싶다고 해 봅시다. 커스텀 오픈소스 모델을 가져오면 되는데, 여기서 '모델 최적화'라는 고민이 생깁니다.

29 / 42
Slide 29

그 고민을 풀어 주는 게 바로 Windows ML CLI입니다. 미리보기로 공개된 이 도구를 살펴보겠습니다.

30 / 42
Slide 30

모델 최적화 파이프라인

Windows ML CLI는 변환, 분석, 최적화, 양자화, 벤치마크까지 이어지는 통합 파이프라인입니다. HuggingFace의 수만 개 ONNX·PyTorch 모델이나 내가 학습한 모델을 에이전트 친화적으로 최적화해 주죠. aka.ms/winmlcli에서 지금 바로 써 보실 수 있습니다.

31 / 42
Slide 31

Windows ML CLI 데모

Intel이 들어간 Surface Laptop for Business에서 Windows ML CLI를 직접 돌려 보겠습니다. 모델을 최적화하는 과정이 얼마나 간단해지는지 보시죠.

32 / 42
Slide 32

확장·성능·배포

Windows ML은 확장성, 성능, 배포 이 세 가지를 한 번에 챙깁니다. 내 프로덕션 앱과 커스텀 모델 사이에서 CPU·GPU·NPU를 통합해 주는 고성능 추론 프레임워크입니다.

33 / 42
Slide 33

공유 엔진과 실행 공급자

내부적으로는 ONNX Runtime 기반의 추론 엔진을 시스템에 하나만 두고 모든 앱이 공유합니다. 하드웨어 벤더의 실행 공급자를 통해 각 기기에 딱 맞게 가속하는 구조죠.

34 / 42
Slide 34

안정성 최적화

이 공유 방식은 Windows에서의 안정성에 특히 최적화돼 있습니다. 앱마다 런타임을 따로 안고 갈 필요 없이, 검증된 공통 엔진 위에서 안심하고 배포할 수 있습니다.

35 / 42
Slide 35

WebNN으로 웹 앱까지

미리보기지만 Windows ML은 WebNN을 통해 웹 앱에도 확장됩니다. Edge나 Chrome에서 실험 플래그를 켜면 웹사이트에서도 GPU·NPU·CPU 하드웨어 가속을 그대로 쓸 수 있습니다.

36 / 42
Slide 36

WebNN 데모

Intel이 들어간 Surface Laptop for Business에서 WebNN을 시연해 보겠습니다. 브라우저 안에서 로컬 하드웨어 가속이 동작하는 모습입니다.

37 / 42
Slide 37

데모: VoiceMod

Snapdragon NPU가 들어간 ASUS Zenbook A16에서, Windows ML 위에서 동작하는 VoiceMod를 보여드립니다. 실제 파트너 앱이 이 프레임워크를 어떻게 활용하는지 확인하실 수 있습니다.

38 / 42
Slide 38

2026년 Windows ML의 새 소식

2026년 Windows ML에는 새 소식이 많습니다. 에이전트 스킬이 추가된 WinML CLI, 최대 2.6배 향상된 CPU 처리량, Windows ML 2.0의 새 모델과 플러그인 EP, 그리고 Chromium 브라우저용 WebNN 미리보기까지 — AMD, Intel, NVIDIA, Qualcomm 전반에서 성능이 크게 좋아졌습니다.

39 / 42
Slide 39

이제 오늘 이야기를 정리해 보겠습니다.

40 / 42
Slide 40

세 층으로 완성한 카페

결국 Unmetered Token Café의 모든 기능은 Foundry on Windows의 세 층 위에서 완성됐습니다. 턴키 API, Foundry Local, Windows ML — 필요에 맞는 층을 골라 쓰면 어떤 로컬 AI 앱이든 만들 수 있습니다.

41 / 42
Slide 41

시작하기와 자료

직접 시작해 보고 싶으시면 WinAppSDK, Aion, Foundry Local, Windows ML, Windows ML CLI, AI Dev Gallery, Foundry Toolkit 링크를 참고하세요. DEM345, TT635, BRK262 같은 다른 세션도 함께 보시길 권합니다.

42 / 42
Slide 42

감사합니다

세션 상세 페이지에서 튜토리얼과 코드로 바로 실습해 보실 수 있습니다. aka.ms/build/evals에서, 또는 QR 코드로 설문에 참여해 주세요. 감사합니다.