<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Speculative-Decoding on nbdawn's Blog</title><link>https://blog.nbdawn.com/kr/tags/speculative-decoding/</link><description>Recent content in Speculative-Decoding on nbdawn's Blog</description><generator>Hugo -- 0.163.3</generator><language>kr</language><copyright>DJ.Kim 2025</copyright><lastBuildDate>Tue, 23 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.nbdawn.com/kr/tags/speculative-decoding/index.xml" rel="self" type="application/rss+xml"/><item><title>직접 띄운 LLM 에이전트가 같은 말만 반복했다</title><link>https://blog.nbdawn.com/kr/posts/hunting-the-repetition-loop-in-a-self-hosted-llm-agent.ko/</link><pubDate>Tue, 23 Jun 2026 00:00:00 +0000</pubDate><guid>https://blog.nbdawn.com/kr/posts/hunting-the-repetition-loop-in-a-self-hosted-llm-agent.ko/</guid><description>&lt;h2 id="에이전트가-같은-말을-반복하기-시작했을-때"&gt;에이전트가 같은 말을 반복하기 시작했을 때&lt;/h2&gt;
&lt;p&gt;처음에는 요청이 먹통이 된 줄 알았습니다. 툴 콜(tool call)이 나와야 할 자리에 모델이 &lt;code&gt;max_tokens&lt;/code&gt; 제한까지 줄기차게 같은 문장만 반복하거나, 툴 콜에 필요한 JSON 형식을 끝내 완성하지 못한 채 의미 없는 잡담만 늘어놓고 있었거든요. 어느 쪽이든 토큰 예산만 낭비하고 가끔은 타임아웃까지 발생하며 에이전트 루프 전체를 말아먹기 일쑤였습니다.&lt;/p&gt;
&lt;p&gt;당시 저는 B2B로 납품하는 비즈니스 인텔리전스(BI) AI를 만들고, 그 위에 에이전트를 얹는 일을 하고 있었습니다. 고객사 데이터가 외부로 나갈 수 없어서 클라우드 API는 쓸 수가 없었습니다. OpenAI도 Anthropic도 안 됐죠. 모델을 우리 하드웨어에 직접 띄워 서빙하거나, 아니면 기능을 포기하거나, 둘 중 하나였습니다. 이렇게 직접 서빙하면 클라우드 API가 알아서 처리해 주던 양자화(quantization), 서빙 프레임워크, 추측 디코딩(speculative decoding)을 전부 손수 다뤄야 합니다. 설정값 하나하나가 다 제 몫이고, 그만큼 제가 망가뜨릴 여지도 컸습니다.&lt;/p&gt;</description></item></channel></rss>