0%

The Fuzzing Book_03_Mutation-Based Fuzzing

https://www.fuzzingbook.org/html/MutationFuzzer.html

  • 대부분의 randomly generated inputs은 구문적으로 invalid하기에 프로그램에 의해 빠르게 거부된다.
  • 따라서 유요한 입력을 얻을 수 있는 기회를 늘려야 한다.
  • 그러한 방법 중 하나가 mutation fuzzing이다.
  • 즉, 입력을 유효하게 유지하면서도 새로운 동작을 수행할 수 있도록 기존 입력에 작은 mutate를 하는 것이다.
  • AFL 퍼저는 위와 같은 개념의 fuzzing을 진행한다.

Synopsis

  • MutationFuzzer Class : mutated된 시드 입력 목록을 생성한다.
  • MutationCoverageFuzzer Class : 커버리지를 최대화 하기 위해 계속 input을 mutate한다.

image


Fuzzing with Mutations

  • AFL은 퍼징을 자동 취약점 탐지에 대해 대중적인 선택으로 만들었다.
  • coverage guided fuzzing을 진행한다.

image

Fuzzing a URL Parser

  • 많은 프로그램은 실제로 입력을 처리하기 전에 매우 구체적인 형식으로 입력되기를 기대한다.
  • URL을 허용하는 프로그램은, URL을 처리할 수 있도록 input이 URL 형식이어야 한다.
  • 하지만 무작위 입력으로 퍼징을 한다면, 실제로 유효한 URL 형식을 만들 수 있는 확률이 얼마나 될까.
1
scheme://netloc/path?query#fragment
  • URL은 위와 같은 형식으로 구성되어 있다.
    • scheme : 사용되는 프로토콜, http, https, ftp, file..
    • netloc : 연결할 호스트의 이름, www.google.com
    • path : 호스트의 경로.
    • query : 키/값 쌍의 목록, q=fuzzing
    • fragment : 검색된 문서의 위치에 대한 마커, #result
1
urlparse("http://www.google.com/search?q=fuzzing")

image

  • python에서는 urlparse 기능을 제공하여 위와 같이 구성 목록을 확인할 수 있다.

  • URL을 입력으로 하는 프로그램이 있다고 가정하고, URL이 올바르면 True, 아니라면 예외를 발생시킨다.

1
2
3
4
5
6
7
8
9
10
11
def http_program(url: str) -> bool:
supported_schemes = ["http", "https"]
result = urlparse(url)
if result.scheme not in supported_schemes:
raise ValueError("Scheme must be one of " +
repr(supported_schemes))
if result.netloc == '':
raise ValueError("Host must be non-empty")

# Do something with the URL
return True
  • 위 프로그램을 완전 랜덤 퍼징으로 진행해본다.
1
2
3
4
5
6
7
for i in range(1000):
try:
url = fuzzer()
result = http_program(url)
print("Success!")
except ValueError:
pass
  • 올바른 URL을 얻을 확률은 얼마나 될까?
  • 먼저 “http://“, “https://“ 로시작하는 문자열이 필요하다.
  • 또한 url 구조에 알맞은 형태로 값이 들어가야 한다.
  • 성공적으로 랜덤 input을 만들기까지 몇 달에서 몇년이 걸릴 것이며 이는 http_program()에 들어갈 하나의 성공적인 실행을 얻기 위한 것이다.

Mutation Inputs

  • 처음부터 랜덤 input을 생성하는 것의 대안은 주어진 유효한 입력으로 시작한 다음 그 입력을 mutate하는 방식이다.
  • mutate 방식에는 문자 삽입, 문자 삭제, 비트 플립이 있다.
  • 이러한 방식을 Mutation fuzzing이라 부른다.
1
2
3
4
5
6
7
8
def delete_random_character(s: str) -> str:
"""Returns s with a random character deleted"""
if s == "":
return s

pos = random.randint(0, len(s) - 1)
# print("Deleting", repr(s[pos]), "at", pos)
return s[:pos] + s[pos + 1:]
  • 인자로 받은 문자열에서 랜덤으로 문자 하나를 삭제하는 함수이다.
1
2
3
4
5
6
def insert_random_character(s: str) -> str:
"""Returns s with a random character inserted"""
pos = random.randint(0, len(s))
random_character = chr(random.randrange(32, 127))
# print("Inserting", repr(random_character), "at", pos)
return s[:pos] + random_character + s[pos:]
  • 인자로 받은 문자열에 랜덤으로 문자 하나를 추가하는 함수이다.
1
2
3
4
5
6
7
8
9
10
11
def flip_random_character(s):
"""Returns s with a random bit flipped in a random position"""
if s == "":
return s

pos = random.randint(0, len(s) - 1)
c = s[pos]
bit = 1 << random.randint(0, 6)
new_c = chr(ord(c) ^ bit)
# print("Flipping", bit, "in", repr(c) + ", giving", repr(new_c))
return s[:pos] + new_c + s[pos + 1:]
  • 인자로 받은 문자열에 랜덤으로 문자 하나에 대해 비트 플립 연산을 하는 함수이다.
1
2
3
4
5
6
7
8
9
10
def mutate(s: str) -> str:
"""Return s with a random mutation applied"""
mutators = [
delete_random_character,
insert_random_character,
flip_random_character
]
mutator = random.choice(mutators)
# print(mutator)
return mutator(s)
  • 그리고 위 함수들을 모아 랜덤으로 mutate할 방식을 고르도록 하여 임의성을 더욱 높힌다.

image

Mutating URLs

1
2
3
4
5
6
def is_valid_url(url: str) -> bool:
try:
result = http_program(url)
return True
except ValueError:
return False
  • 유효한 URL인지 확인하는 함수를 하나 만든다.
1
2
3
4
5
6
7
8
seed_input = "http://www.google.com/search?q=fuzzing"
valid_inputs = set()
trials = 20

for i in range(trials):
inp = mutate(seed_input)
if is_valid_url(inp):
valid_inputs.add(inp)

image

  • 결과로 높은 비율의 유효한 입력을 얻을 수 있다.

Multiple Mutations

  • 앞서 오직 한번의 mutation만 진행했는데, 이를 여러번 적용할 수 있다.
1
2
3
4
5
6
7
8
seed_input = "http://www.google.com/search?q=fuzzing"
mutations = 50

inp = seed_input
for i in range(mutations):
if i % 5 == 0:
print(i, "mutations:", repr(inp))
inp = mutate(inp)
  • 원래 시드 입력은 더 이상 알아볼수 없으며, 이렇게 입력을 계속해 변형시킴으로써 입력에 더 높은 다양성을 얻는다.

image

  • 여러 Mutation을 구현하기 위해 MutationFuzzer Class를 도입한다.
  • Seed, min_mutations, max_mutations이 필요하다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
class MutationFuzzer(Fuzzer):
"""Base class for mutational fuzzing"""

def __init__(self, seed: List[str],
min_mutations: int = 2,
max_mutations: int = 10) -> None:
"""Constructor.
`seed` - a list of (input) strings to mutate.
`min_mutations` - the minimum number of mutations to apply.
`max_mutations` - the maximum number of mutations to apply.
"""
self.seed = seed
self.min_mutations = min_mutations
self.max_mutations = max_mutations
self.reset()

def reset(self) -> None:
"""Set population to initial seed.
To be overloaded in subclasses."""
self.population = self.seed
self.seed_index = 0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
class MutationFuzzer(MutationFuzzer):
def mutate(self, inp: str) -> str:
return mutate(inp)

def create_candidate(self) -> str:
"""Create a new candidate by mutating a population member"""
candidate = random.choice(self.population)
trials = random.randint(self.min_mutations, self.max_mutations)
for i in range(trials):
candidate = self.mutate(candidate)
return candidate

def fuzz(self) -> str:
if self.seed_index < len(self.seed):
# Still seeding
self.inp = self.seed[self.seed_index]
self.seed_index += 1
else:
# Mutating
self.inp = self.create_candidate()
return self.inp
  • fuzz 함수를 살펴보면 먼저 seed 리스트에 있는 문자열을 한 번씩 사용 후, create_candidate()함수를 호출해 mutate하게 된다.
  • input의 다양성이 높을수록 유효하지 않은 값이 생길 수 있다. 하지만 이러한 mutation을 guide하는 것이 핵심 아이디어다.
  • 즉 가치있는 mutation을 유지하는 것이다.

Guiding by Coverage

  • 테스트는 항상 프로그램을 실행하므로 실행 정보를 수집할 수 있다.

  • 최소한 테스트의 통과 여부를 결정하는데 필요한 정보는 필요하다.

  • 커버리지는 테스트 품질을 결정하기 위해 자주 측정되므로 테스트 실행의 커버리지도 검색할 수 있다 가정한다.

  • 우리는 어떻게 커버리지를 to guide test generation 하기 위해 활용할 수 있을까?

  • 성공적인 아이디어는 AFL이라는 퍼저에서 구현된다.

  • AFL은 성공적인 테스트 사례를 발전 시킨다.

  • AFL에서 “성공”은 프로그램 실행을 통해 새로운 경로를 찾는 것이다.

  • 이런식으로 AFL은 지금까지 새로운 경로를 찾았던 입력을 계속 mutate할 수 있으며,

  • 입력이 다른 경로를 찾더라도 이 또한 유지가 된다.

  • urlparse를 대상으로 이를 구현해본다.

FunctionRunner Class

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
class FunctionRunner(Runner):
def __init__(self, function: Callable) -> None:
"""Initialize. `function` is a function to be executed"""
self.function = function

def run_function(self, inp: str) -> Any:
return self.function(inp)

def run(self, inp: str) -> Tuple[Any, str]:
try:
result = self.run_function(inp)
outcome = self.PASS
except Exception:
result = None
outcome = self.FAIL

return result, outcome
1
2
3
4
5
6
7
8
9
10
11
12
13
14
class FunctionCoverageRunner(FunctionRunner):
def run_function(self, inp: str) -> Any:
with Coverage() as cov:
try:
result = super().run_function(inp)
except Exception as exc:
self._coverage = cov.coverage()
raise exc

self._coverage = cov.coverage()
return result

def coverage(self) -> Set[Location]:
return self._coverage
1
2
http_runner = FunctionCoverageRunner(http_program)
http_runner.run("https://foo.bar/")

image

  • 커버리지를 측정하는 runner를 만든다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
class MutationCoverageFuzzer(MutationFuzzer):
"""Fuzz with mutated inputs based on coverage"""

def reset(self) -> None:
super().reset()
self.coverages_seen: Set[frozenset] = set()
# Now empty; we fill this with seed in the first fuzz runs
self.population = []

def run(self, runner: FunctionCoverageRunner) -> Any:
"""Run function(inp) while tracking coverage.
If we reach new coverage,
add inp to population and its coverage to population_coverage
"""
result, outcome = super().run(runner)
new_coverage = frozenset(runner.coverage())
if outcome == Runner.PASS and new_coverage not in self.coverages_seen:
# We have new coverage
self.population.append(self.inp)
self.coverages_seen.add(new_coverage)

return result
1
2
3
4
seed_input = "http://www.google.com/search?q=fuzzing"
mutation_fuzzer = MutationCoverageFuzzer(seed=[seed_input])
mutation_fuzzer.runs(http_runner, trials=10000)
mutation_fuzzer.population

image

  • 각각의 모든 입력은 현재 유효하며, schemes, paths, queries, fragments의 다양한 조합에서 오는 서로 다른 커버리지를 가지고 있다.

  • 따라서 완전 무작위 fuzzing보다 커버리지를 사용한 mutate fuzzing이 효율적일 수 있다.