목차 (클릭시 해당 목차로 이동)
문제 설명
[본 문제는 정확성과 효율성 테스트 각각 점수가 있는 문제입니다.]
카카오는 하반기 경력 개발자 공개채용을 진행 중에 있으며 현재 지원서 접수와 코딩테스트가 종료되었습니다. 이번 채용에서 지원자는 지원서 작성 시 아래와 같이 4가지 항목을 반드시 선택하도록 하였습니다.
- 코딩테스트 참여 개발언어 항목에 cpp, java, python 중 하나를 선택해야 합니다.
- 지원 직군 항목에 backend와 frontend 중 하나를 선택해야 합니다.
- 지원 경력구분 항목에 junior와 senior 중 하나를 선택해야 합니다.
- 선호하는 소울푸드로 chicken과 pizza 중 하나를 선택해야 합니다.
인재영입팀에 근무하고 있는 니니즈는 코딩테스트 결과를 분석하여 채용에 참여한 개발팀들에 제공하기 위해 지원자들의 지원 조건을 선택하면 해당 조건에 맞는 지원자가 몇 명인 지 쉽게 알 수 있는 도구를 만들고 있습니다.
예를 들어, 개발팀에서 궁금해하는 문의사항은 다음과 같은 형태가 될 수 있습니다.
코딩테스트에 java로 참여했으며, backend 직군을 선택했고, junior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 50점 이상 받은 지원자는 몇 명인가?
물론 이 외에도 각 개발팀의 상황에 따라 아래와 같이 다양한 형태의 문의가 있을 수 있습니다.
- 코딩테스트에 python으로 참여했으며, frontend 직군을 선택했고, senior 경력이면서, 소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
- 코딩테스트에 cpp로 참여했으며, senior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
- backend 직군을 선택했고, senior 경력이면서 코딩테스트 점수를 200점 이상 받은 사람은 모두 몇 명인가?
- 소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 250점 이상 받은 사람은 모두 몇 명인가?
- 코딩테스트 점수를 150점 이상 받은 사람은 모두 몇 명인가?
즉, 개발팀에서 궁금해하는 내용은 다음과 같은 형태를 갖습니다.
* [조건]을 만족하는 사람 중 코딩테스트 점수를 X점 이상 받은 사람은 모두 몇 명인가?
[문제]
지원자가 지원서에 입력한 4가지의 정보와 획득한 코딩테스트 점수를 하나의 문자열로 구성한 값의 배열 info, 개발팀이 궁금해하는 문의조건이 문자열 형태로 담긴 배열 query가 매개변수로 주어질 때,
각 문의조건에 해당하는 사람들의 숫자를 순서대로 배열에 담아 return 하도록 solution 함수를 완성해 주세요.
[제한사항]
- info 배열의 크기는 1 이상 50,000 이하입니다.
- info 배열 각 원소의 값은 지원자가 지원서에 입력한 4가지 값과 코딩테스트 점수를 합친 "개발언어 직군 경력 소울푸드 점수" 형식입니다.
- 개발언어는 cpp, java, python 중 하나입니다.
- 직군은 backend, frontend 중 하나입니다.
- 경력은 junior, senior 중 하나입니다.
- 소울푸드는 chicken, pizza 중 하나입니다.
- 점수는 코딩테스트 점수를 의미하며, 1 이상 100,000 이하인 자연수입니다.
- 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
- query 배열의 크기는 1 이상 100,000 이하입니다.
- query의 각 문자열은 "[조건] X" 형식입니다.
- [조건]은 "개발언어 and 직군 and 경력 and 소울푸드" 형식의 문자열입니다.
- 언어는 cpp, java, python, - 중 하나입니다.
- 직군은 backend, frontend, - 중 하나입니다.
- 경력은 junior, senior, - 중 하나입니다.
- 소울푸드는 chicken, pizza, - 중 하나입니다.
- '-' 표시는 해당 조건을 고려하지 않겠다는 의미입니다.
- X는 코딩테스트 점수를 의미하며 조건을 만족하는 사람 중 X점 이상 받은 사람은 모두 몇 명인 지를 의미합니다.
- 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
- 예를 들면, "cpp and - and senior and pizza 500"은 "cpp로 코딩테스트를 봤으며, 경력은 senior 이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 500점 이상 받은 사람은 모두 몇 명인가?"를 의미합니다.
[입출력 예]
info | query | result |
["java backend junior pizza 150","python frontend senior chicken 210","python frontend senior chicken 150","cpp backend senior pizza 260","java backend junior chicken 80","python backend senior chicken 50"] | ["java and backend and junior and pizza 100","python and frontend and senior and chicken 200","cpp and - and senior and pizza 250","- and backend and senior and - 150","- and - and - and chicken 100","- and - and - and - 150"] | [1,1,1,1,2,4] |
입출력 예에 대한 설명
지원자 정보를 표로 나타내면 다음과 같습니다.
언어 | 직군 | 경력 | 소울푸드 | 점수 |
java | backend | junior | pizza | 150 |
python | frontend | senior | chicken | 210 |
python | frontend | senior | chicken | 150 |
cpp | backend | senior | pizza | 260 |
java | backend | junior | chicken | 80 |
python | backend | senior | chicken | 50 |
- "java and backend and junior and pizza 100" : java로 코딩테스트를 봤으며, backend 직군을 선택했고 junior 경력이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 100점 이상 받은 지원자는 1명 입니다.
- "python and frontend and senior and chicken 200" : python으로 코딩테스트를 봤으며, frontend 직군을 선택했고, senior 경력이면서 소울 푸드로 chicken을 선택한 지원자 중 코딩테스트 점수를 200점 이상 받은 지원자는 1명 입니다.
- "cpp and - and senior and pizza 250" : cpp로 코딩테스트를 봤으며, senior 경력이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 250점 이상 받은 지원자는 1명 입니다.
- "- and backend and senior and - 150" : backend 직군을 선택했고, senior 경력인 지원자 중 코딩테스트 점수를 150점 이상 받은 지원자는 1명 입니다.
- "- and - and - and chicken 100" : 소울푸드로 chicken을 선택한 지원자 중 코딩테스트 점수를 100점 이상을 받은 지원자는 2명 입니다.
- "- and - and - and - 150" : 코딩테스트 점수를 150점 이상 받은 지원자는 4명 입니다.
초기 접근
info : 50000개
query : 100000개
O(n^2) 까지는 될수도 있겠다 생각했다.
- dict 라이브러리에 각 단어별로 인덱스를 리스트로 넣어놓는다.
{'java' : [0, 4], 'backend' : [0, 3, 4, 5], 'python' : [1, 2] ... } 이런식으로 - query에서 파싱한다음에 겹치는 인덱스를 구한다.
c = list(set(a).intersection(b)) 하면 c에 a,b의 공통 요소가 들어간다. - 겹치는 인덱스들의 점수들을 query의 점수와 비교하여 answer 리스트에 넣는다.
코드
def solution(info, query):
answer = []
info_dict = dict()
score = [0] * len(info)
for i in range(len(info)):
info_list = info[i].split(" ")
for j in range(len(info_list)):
if j == len(info_list) - 1:
score[i] = info_list[j]
continue
if info_list[j] not in info_dict:
info_dict[info_list[j]] = []
info_dict[info_list[j]].append(i)
else:
info_dict[info_list[j]].append(i)
for i in range(len(query)):
q_split = query[i].split(" ")
while "and" in q_split:
q_split.remove("and")
# print(q_split)
if q_split[0] == "-":
temp = [x for x in range(len(info))]
else:
temp = info_dict[q_split[0]]
for j in range(1, len(q_split)-1):
if q_split[j] == "-":
continue
temp = list(set(temp).intersection(info_dict[q_split[j]]))
count = 0
for t in temp:
if int(q_split[-1]) <= int(score[t]):
count += 1
answer.append(count)
return answer
보기좋게 시간초과가 났다.
시간초과가 난 이유
query 파싱하면서 공통인덱스를 찾는 로직에서
모든 query에 대해 -> O(n)
공통원소의 리스트를 돌며 score 비교 -> (최악의 경우 O(n))
n^2 까지는 시간초과가 나지 않을 것 같았지만 시간초과가 나버렸다.
해결방법
score 비교하는 부분을 이분탐색으로 바꿔보자.
O(n log n) 이면 잘 돌아갈듯.
score 비교할때 이분탐색을 하기 위해서는
- dict ( 'key' : list ) 형식의 list가 index가 아닌 score를 담고있어야한다.
이분탐색을 위해서 정렬을 해야하기 때문이다. - 인덱스가 담겨있지 않으므로 인덱스로 공통인덱스를 구별할 수 없다.
그래서 아예 info에서 모든 조합들을 key로 하고, score를 value로 해버리자.
info에서 모든 조합들에 대한 예시
query에는 info에 없는 "-"가 있다.
"-" 는 조건을 고려하지 않는다는 뜻으로, "-"가 있는 부분은 모든 경우를 포함시켜야 한다.
info 조건은 점수를 제외하면
언어 | 포지션 | 경력 | 음식 |
이렇게 볼 수 있다.
"-" 조건을 고려할때, 언어가 있거나 없거나, 포지션이 있거나 없거나, 경력이 있거나 없거나, 음식이 있거나 없거나
2 * 2 * 2 * 2 = 2^4 = 16 개 조합이 나올 수 있다.
이해가 안될 수 있으니 예시로 한번 보겠다.
info : "java backend junior pizza 150" 라고 해보자
점수를 제외하면
java backend junior pizza
이 사람을 포함하는 질문에는
java backend junior pizza 도 있겠지만
- backend junior pizza 도 있다.
물론
java - junior pizza 도 된다.
결론은 아래의 16가지 모두 다 java backend junior pizza 를 지정할 수 있는 query 이다.
- java backend junior pizza
- - backend junior pizza
- java backend junior pizza
- java - junior pizza
- java backend junior pizza
- java backend - pizza
- java backend junior pizza
- java backend junior -
- - - junior pizza
- - backend - pizza
- - backend junior -
- java - - pizza
- java - junior -
- java backend - -
- java - - -
- - - - -
info 는 최대 50000개, 하나의 info당 16개의 조합이 나와서 800,000개 이므로 괜찮다.
각 info당 16개의 조합에 해당 info의 점수를 다 넣어놓으면 된다.
"-" 가 포함된 조합일 경우 다른 info와 겹칠 수 있다. 그래서 list로 넣는 것이다.
최악의 경우 하나의 조합에 점수가 몰려 들어갈 수 있다. 그리고 이 것을 모든 query에 대해 순차 탐색하면 O(N^2) 이므로 시간초과이다.
그래서 점수를 찾아낼때 이분탐색(O log n)을 쓰는 것이다.
해결코드
from bisect import bisect_left
def solution(info, query):
answer = []
info_dict = dict()
# info 의 모든 조합으로 dict 만들기
for i in range(len(info)):
info_split = info[i].split(" ")
str_list = []
score = int(info_split.pop())
# 16개의 조합을 만들땐 스택(큐)을 이용한다.
# 지금까지 만든 조합들 모두를 꺼내면서 해당 자리에 단어를 넣거나, "-"를 넣는 두가지를 만들어서 다시 집어넣는다.
# 초기에 첫단어와 "-" 넣기
str_list.append(info_split[0])
str_list.append("-")
for j in range(1, len(info_split)):
length = len(str_list)
# 현재 존재하는 조합의 개수만큼 다음 단어를 넣거나 "-"를 넣는 두가지를 만들어서 다시 집어넣는다.
for _ in range(length):
temp = str_list.pop(0)
str_list.append(temp+info_split[j])
str_list.append(temp+"-")
for st in str_list:
if st not in info_dict:
info_dict[st] = []
info_dict[st].append(score)
else:
info_dict[st].append(score)
# dict의 score들을 정렬하기
for idk in info_dict.keys():
info_dict[idk].sort()
# 모든 query에 대해서 점수를 구하고 그 점수 이상인 조합들의 개수를 구한다.
for i in range(len(query)):
q_split = query[i].replace('and', '').split(" ")
# print(q_split)
temp_str = ""
score = int(q_split.pop())
for j in range(len(q_split)):
temp_str += q_split[j]
if temp_str not in info_dict:
answer.append(0)
continue
else:
score_list = info_dict[temp_str]
left_index = bisect_left(score_list, score)
# print(score_list)
# print(score, len(score_list) - left_index)
answer.append(len(score_list) - left_index)
return answer
'Algorithm > 문제풀이' 카테고리의 다른 글
[프로그래머스] 튜플 (0) | 2021.05.07 |
---|---|
[프로그래머스] 불량 사용자 (0) | 2021.05.06 |
[프로그래머스] 보석 쇼핑 (0) | 2021.05.06 |
[프로그래머스] 풍선 터뜨리기 (0) | 2021.04.14 |