문제 설명

추석 트래픽

이번 추석에도 시스템 장애가 없는 명절을 보내고 싶은 어피치는 서버를 증설해야 할지 고민이다. 장애 대비용 서버 증설 여부를 결정하기 위해 작년 추석 기간인 9월 15일 로그 데이터를 분석한 후 초당 최대 처리량을 계산해보기로 했다. 초당 최대 처리량은 요청의 응답 완료 여부에 관계없이 임의 시간부터 1초(=1,000밀리초)간 처리하는 요청의 최대 개수를 의미한다.

입력 형식

  • solution 함수에 전달되는 lines 배열은 N(1 ≦ N ≦ 2,000)개의 로그 문자열로 되어 있으며, 각 로그 문자열마다 요청에 대한 응답완료시간 S와 처리시간 T가 공백으로 구분되어 있다.
  • 응답완료시간 S는 작년 추석인 2016년 9월 15일만 포함하여 고정 길이 2016-09-15 hh:mm:ss.sss 형식으로 되어 있다.
  • 처리시간 T 0.1s, 0.312s, 2s 와 같이 최대 소수점 셋째 자리까지 기록하며 뒤에는 초 단위를 의미하는 s로 끝난다.
  • 예를 들어, 로그 문자열 2016-09-15 03:10:33.020 0.011s은 "2016년 9월 15일 오전 3시 10분 33.010초"부터 "2016년 9월 15일 오전 3시 10분 33.020초"까지 "0.011초" 동안 처리된 요청을 의미한다. (처리시간은 시작시간과 끝시간을 포함)
  • 서버에는 타임아웃이 3초로 적용되어 있기 때문에 처리시간은 0.001 ≦ T ≦ 3.000이다.
  • lines 배열은 응답완료시간 S를 기준으로 오름차순 정렬되어 있다.

출력 형식

  • solution 함수에서는 로그 데이터 lines 배열에 대해 초당 최대 처리량을 리턴한다.

입출력 예제

예제1

  • 입력: [
    "2016-09-15 01:00:04.001 2.0s",
    "2016-09-15 01:00:07.000 2s"
    ]
  • 출력: 1

예제2

  • 입력: [
    "2016-09-15 01:00:04.002 2.0s",
    "2016-09-15 01:00:07.000 2s"
    ]
  • 출력: 2
  • 설명: 처리시간은 시작시간과 끝시간을 포함하므로
    첫 번째 로그는 01:00:02.003 ~ 01:00:04.002에서 2초 동안 처리되었으며,
    두 번째 로그는 01:00:05.001 ~ 01:00:07.000에서 2초 동안 처리된다.
    따라서, 첫 번째 로그가 끝나는 시점과 두 번째 로그가 시작하는 시점의 구간인 01:00:04.002 ~ 01:00:05.001 1초 동안 최대 2개가 된다.

예제3

  • 입력: [
    "2016-09-15 20:59:57.421 0.351s",
    "2016-09-15 20:59:58.233 1.181s",
    "2016-09-15 20:59:58.299 0.8s",
    "2016-09-15 20:59:58.688 1.041s",
    "2016-09-15 20:59:59.591 1.412s",
    "2016-09-15 21:00:00.464 1.466s",
    "2016-09-15 21:00:00.741 1.581s",
    "2016-09-15 21:00:00.748 2.31s",
    "2016-09-15 21:00:00.966 0.381s",
    "2016-09-15 21:00:02.066 2.62s"
    ]
  • 출력: 7
  • 설명: 아래 타임라인 그림에서 빨간색으로 표시된 1초 각 구간의 처리량을 구해보면 (1)은 4개, (2)는 7개, (3)는 2개임을 알 수 있다. 따라서 초당 최대 처리량은 7이 되며, 동일한 최대 처리량을 갖는 1초 구간은 여러 개 존재할 수 있으므로 이 문제에서는 구간이 아닌 개수만 출력한다.

 

[풀이]

import datetime

def solution(lines):
    times = {}

    for time in lines:
        e_time = datetime.datetime.strptime(' '.join(time.split(' ')[:2]), '%Y-%m-%d %H:%M:%S.%f')
        dur = float(time.split(' ')[-1][:-1])
        s_time = e_time - datetime.timedelta(seconds = dur) + datetime.timedelta(seconds = 0.001)
        times[e_time] = 0 #끝난 시간
        times[s_time] = 1 #시작한 시간

    times = sorted(times.items())

    maxx, cur = 0, 0
    for s in range(len(times)):
        time, type = times[s][0], times[s][1]
        if type == 1:
            cur += 1

        d_time = time + datetime.timedelta(seconds=1) - datetime.timedelta(seconds = 0.001) #1초 범위
        e, d_cur = s, cur
        for e in range(s+1, len(times)): #1초 동안 추가로 시작한 부분 카운트
            e_time, e_type = times[e][0], times[e][1]
            if e_time > d_time: #1초가 지나면 break
                break
            if e_type == 1: #1초 동안 시작 된 부분만 카운트(끝난건 카운트x) -> d_cur
                d_cur += 1
        if type == 0:
            cur -= 1
        maxx = max(maxx, d_cur)

    return maxx

if __name__ == '__main__':
    solution(["2016-09-15 01:00:04.002 2.0s", "2016-09-15 01:00:07.000 2s"])
    solution(["2016-09-15 01:00:04.001 2.0s", "2016-09-15 01:00:07.000 2s"])

 

처음에는 1초 구간이 아니라 어느 한 시점의 최대 트래픽 양을 구하는 문제인 줄 알고 코드를 작성하였다. 각각의 트래픽이 시작하고, 끝나는 부분에서 트래픽 양이 바뀌므로 이 부분을 중심으로 코드를 작성하기로 하였다.

 

로그가 들어오면 시작시간과 끝나는 시간을 구해서 각각의 타입을 1과 0으로 정해 하나의 튜플에 저장해주고 계산을 해주었고 그제서야 1초 구간이 적용된다는 것을 확인하고 조금 수정해주었다.

 

times배열에 (시간, 타입(0: 끝난 시간, 1: 시작 시간))형태로  주어진 lines 배열을 계산해서 넣어준 뒤 시작과 끝나는 시간의 부분마다 그 시점부터 1초 뒤를 구간으로 잡은 뒤 그 구간동안 처리된 트래픽을 계산하는 방식으로 작성했다. 6개의 테스트는 통과했는데 정확성 테스트를 해보니까 정확도가 50%밖에 나오지 않았다ㅠㅠ

 

질문을 확인해보니까 datetime의 float으로 비교하는 것에서 문제가 생길 수도 있다는 것을 보고 datetime이 아니라 millisecond를 기준으로 int형태로 바꿔서 계산해주었다(여기서 문제에서 9월 15일 추석 당일이라고 명시했기 때문에 날짜 부분은 무시하고 시간부분만 다뤄줬다). 하지만 바뀌는건 없었고.. 본 코드 자체가 문제였다.

 

기존에는 시작시간-끝나는시간을 묶음으로 생각하지 않고 풀어서 그냥 카운트만 셌는데, 이를 묶음으로 생각해보기로 하였다. 

시작 시간을 기준으로 1초 기간을 계산할지, 끝나는 시간을 기준으로 할지 고민했었는데 시작 시간을 기준으로 하면 현재 시간 이전에 시작된 부분도 고려해줘야 하는 문제가 있었다. 끝나는 시간을 기준으로 하면 현재 시간 이전의 트래픽들은 모두 끝나있는 상태이기 때문에 이후의 트래픽만 고려해주면 된다(lines배열이 끝나는 시간 기준으로 정렬되어있기도 했다).

 

def solution(lines):

    s_time, e_time = [], []

    for time in lines:
        time = time.split(" ")
        hour, minute, second = time[1].split(":")
        second, millisecond = second.split(".")

        hour = int(hour) * 3600000
        minute = int(minute) * 60000
        second = int(second) * 1000
        millisecond = int(millisecond)

        e_time.append(hour+minute+second+millisecond) #끝난 시간
        duration = int(float(time[2][:-1]) * 1000)
        s_time.append(hour+minute+second+millisecond-duration+1) #시작 시간(처리 시간 포함 -> 1millisecond 추가)

    maxx = 0

    for i in range(len(lines)):

        d_time, cnt = e_time[i]+999, 1 #1초 구간 -> d_time

        for j in range(i+1, len(lines)): #1초 동안 시작한 트래픽의 수 카운트
        
            if  s_time[j] <= d_time: #1초가 지나면 break
                cnt += 1

        maxx = max(maxx, cnt)

    return maxx

 

확실히 시간 관련 문제가 많이 헷갈리고 어렵다ㅠㅠ 1초 범위가 뭐고.. 시작 끝 포함 범위가 뭔지.. 처음에는 이해도 안가서 계속 실행해가면서 millisecond 값을 바꿔서 작성했다ㅠㅠ

 

+ Recent posts