[프로그래머스] 순위 검색

목차 (클릭시 해당 목차로 이동)

문제 설명

[본 문제는 정확성과 효율성 테스트 각각 점수가 있는 문제입니다.]

카카오는 하반기 경력 개발자 공개채용을 진행 중에 있으며 현재 지원서 접수와 코딩테스트가 종료되었습니다. 이번 채용에서 지원자는 지원서 작성 시 아래와 같이 4가지 항목을 반드시 선택하도록 하였습니다.

코딩테스트 참여 개발언어 항목에 cpp, java, python 중 하나를 선택해야 합니다.
지원 직군 항목에 backend와 frontend 중 하나를 선택해야 합니다.
지원 경력구분 항목에 junior와 senior 중 하나를 선택해야 합니다.
선호하는 소울푸드로 chicken과 pizza 중 하나를 선택해야 합니다.

인재영입팀에 근무하고 있는 니니즈는 코딩테스트 결과를 분석하여 채용에 참여한 개발팀들에 제공하기 위해 지원자들의 지원 조건을 선택하면 해당 조건에 맞는 지원자가 몇 명인 지 쉽게 알 수 있는 도구를 만들고 있습니다.
예를 들어, 개발팀에서 궁금해하는 문의사항은 다음과 같은 형태가 될 수 있습니다.
코딩테스트에 java로 참여했으며, backend 직군을 선택했고, junior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 50점 이상 받은 지원자는 몇 명인가?

물론 이 외에도 각 개발팀의 상황에 따라 아래와 같이 다양한 형태의 문의가 있을 수 있습니다.

코딩테스트에 python으로 참여했으며, frontend 직군을 선택했고, senior 경력이면서, 소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
코딩테스트에 cpp로 참여했으며, senior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
backend 직군을 선택했고, senior 경력이면서 코딩테스트 점수를 200점 이상 받은 사람은 모두 몇 명인가?
소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 250점 이상 받은 사람은 모두 몇 명인가?
코딩테스트 점수를 150점 이상 받은 사람은 모두 몇 명인가?

즉, 개발팀에서 궁금해하는 내용은 다음과 같은 형태를 갖습니다.

* [조건]을 만족하는 사람 중 코딩테스트 점수를 X점 이상 받은 사람은 모두 몇 명인가?

[문제]

지원자가 지원서에 입력한 4가지의 정보와 획득한 코딩테스트 점수를 하나의 문자열로 구성한 값의 배열 info, 개발팀이 궁금해하는 문의조건이 문자열 형태로 담긴 배열 query가 매개변수로 주어질 때,
각 문의조건에 해당하는 사람들의 숫자를 순서대로 배열에 담아 return 하도록 solution 함수를 완성해 주세요.

[제한사항]

info 배열의 크기는 1 이상 50,000 이하입니다.
info 배열 각 원소의 값은 지원자가 지원서에 입력한 4가지 값과 코딩테스트 점수를 합친 "개발언어 직군 경력 소울푸드 점수" 형식입니다.
- 개발언어는 cpp, java, python 중 하나입니다.
- 직군은 backend, frontend 중 하나입니다.
- 경력은 junior, senior 중 하나입니다.
- 소울푸드는 chicken, pizza 중 하나입니다.
- 점수는 코딩테스트 점수를 의미하며, 1 이상 100,000 이하인 자연수입니다.
- 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
query 배열의 크기는 1 이상 100,000 이하입니다.
query의 각 문자열은 "[조건] X" 형식입니다.
- [조건]은 "개발언어 and 직군 and 경력 and 소울푸드" 형식의 문자열입니다.
- 언어는 cpp, java, python, - 중 하나입니다.
- 직군은 backend, frontend, - 중 하나입니다.
- 경력은 junior, senior, - 중 하나입니다.
- 소울푸드는 chicken, pizza, - 중 하나입니다.
- '-' 표시는 해당 조건을 고려하지 않겠다는 의미입니다.
- X는 코딩테스트 점수를 의미하며 조건을 만족하는 사람 중 X점 이상 받은 사람은 모두 몇 명인 지를 의미합니다.
- 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
- 예를 들면, "cpp and - and senior and pizza 500"은 "cpp로 코딩테스트를 봤으며, 경력은 senior 이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 500점 이상 받은 사람은 모두 몇 명인가?"를 의미합니다.

[입출력 예]

info	query	result
["java backend junior pizza 150","python frontend senior chicken 210","python frontend senior chicken 150","cpp backend senior pizza 260","java backend junior chicken 80","python backend senior chicken 50"]	["java and backend and junior and pizza 100","python and frontend and senior and chicken 200","cpp and - and senior and pizza 250","- and backend and senior and - 150","- and - and - and chicken 100","- and - and - and - 150"]	[1,1,1,1,2,4]

입출력 예에 대한 설명

지원자 정보를 표로 나타내면 다음과 같습니다.

언어	직군	경력	소울푸드	점수
java	backend	junior	pizza	150
python	frontend	senior	chicken	210
python	frontend	senior	chicken	150
cpp	backend	senior	pizza	260
java	backend	junior	chicken	80
python	backend	senior	chicken	50

"java and backend and junior and pizza 100" : java로 코딩테스트를 봤으며, backend 직군을 선택했고 junior 경력이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 100점 이상 받은 지원자는 1명 입니다.
"python and frontend and senior and chicken 200" : python으로 코딩테스트를 봤으며, frontend 직군을 선택했고, senior 경력이면서 소울 푸드로 chicken을 선택한 지원자 중 코딩테스트 점수를 200점 이상 받은 지원자는 1명 입니다.
"cpp and - and senior and pizza 250" : cpp로 코딩테스트를 봤으며, senior 경력이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 250점 이상 받은 지원자는 1명 입니다.
"- and backend and senior and - 150" : backend 직군을 선택했고, senior 경력인 지원자 중 코딩테스트 점수를 150점 이상 받은 지원자는 1명 입니다.
"- and - and - and chicken 100" : 소울푸드로 chicken을 선택한 지원자 중 코딩테스트 점수를 100점 이상을 받은 지원자는 2명 입니다.
"- and - and - and - 150" : 코딩테스트 점수를 150점 이상 받은 지원자는 4명 입니다.

초기 접근

info : 50000개

query : 100000개

O(n^2) 까지는 될수도 있겠다 생각했다.

dict 라이브러리에 각 단어별로 인덱스를 리스트로 넣어놓는다.
{'java' : [0, 4], 'backend' : [0, 3, 4, 5], 'python' : [1, 2] ... } 이런식으로
query에서 파싱한다음에 겹치는 인덱스를 구한다.
c = list(set(a).intersection(b)) 하면 c에 a,b의 공통 요소가 들어간다.
겹치는 인덱스들의 점수들을 query의 점수와 비교하여 answer 리스트에 넣는다.

코드

def solution(info, query):
    answer = []

    info_dict = dict()
    score = [0] * len(info)

    for i in range(len(info)):
        info_list = info[i].split(" ")
        for j in range(len(info_list)):
            if j == len(info_list) - 1:
                score[i] = info_list[j]
                continue

            if info_list[j] not in info_dict:
                info_dict[info_list[j]] = []
                info_dict[info_list[j]].append(i)
            else:
                info_dict[info_list[j]].append(i)

    for i in range(len(query)):
        q_split = query[i].split(" ")
        while "and" in q_split:
            q_split.remove("and")
        # print(q_split)
        if q_split[0] == "-":
            temp = [x for x in range(len(info))]
        else:
            temp = info_dict[q_split[0]]

        for j in range(1, len(q_split)-1):
            if q_split[j] == "-":
                continue
            temp = list(set(temp).intersection(info_dict[q_split[j]]))

        count = 0
        for t in temp:
            if int(q_split[-1]) <= int(score[t]):
                count += 1
        answer.append(count)

    return answer

보기좋게 시간초과가 났다.

시간초과가 난 이유

query 파싱하면서 공통인덱스를 찾는 로직에서

모든 query에 대해 -> O(n)

공통원소의 리스트를 돌며 score 비교 -> (최악의 경우 O(n))

n^2 까지는 시간초과가 나지 않을 것 같았지만 시간초과가 나버렸다.

해결방법

score 비교하는 부분을 이분탐색으로 바꿔보자.

O(n log n) 이면 잘 돌아갈듯.

score 비교할때 이분탐색을 하기 위해서는

dict ( 'key' : list ) 형식의 list가 index가 아닌 score를 담고있어야한다.
이분탐색을 위해서 정렬을 해야하기 때문이다.
인덱스가 담겨있지 않으므로 인덱스로 공통인덱스를 구별할 수 없다.
그래서 아예 info에서 모든 조합들을 key로 하고, score를 value로 해버리자.

info에서 모든 조합들에 대한 예시

query에는 info에 없는 "-"가 있다.

"-" 는 조건을 고려하지 않는다는 뜻으로, "-"가 있는 부분은 모든 경우를 포함시켜야 한다.

info 조건은 점수를 제외하면

언어

포지션

경력

음식

이렇게 볼 수 있다.

"-" 조건을 고려할때, 언어가 있거나 없거나, 포지션이 있거나 없거나, 경력이 있거나 없거나, 음식이 있거나 없거나

2 * 2 * 2 * 2 = 2^4 = 16 개 조합이 나올 수 있다.

이해가 안될 수 있으니 예시로 한번 보겠다.

info : "java backend junior pizza 150" 라고 해보자

점수를 제외하면

java backend junior pizza

이 사람을 포함하는 질문에는

java backend junior pizza 도 있겠지만

- backend junior pizza 도 있다.

물론

java - junior pizza 도 된다.

결론은 아래의 16가지 모두 다 java backend junior pizza 를 지정할 수 있는 query 이다.

java backend junior pizza
- backend junior pizza
java backend junior pizza
java - junior pizza
java backend junior pizza
java backend - pizza
java backend junior pizza
java backend junior -
- - junior pizza
- backend - pizza
- backend junior -
java - - pizza
java - junior -
java backend - -
java - - -
- - - -

info 는 최대 50000개, 하나의 info당 16개의 조합이 나와서 800,000개 이므로 괜찮다.

각 info당 16개의 조합에 해당 info의 점수를 다 넣어놓으면 된다.

"-" 가 포함된 조합일 경우 다른 info와 겹칠 수 있다. 그래서 list로 넣는 것이다.

최악의 경우 하나의 조합에 점수가 몰려 들어갈 수 있다. 그리고 이 것을 모든 query에 대해 순차 탐색하면 O(N^2) 이므로 시간초과이다.

그래서 점수를 찾아낼때 이분탐색(O log n)을 쓰는 것이다.

해결코드

from bisect import bisect_left


def solution(info, query):
    answer = []
    info_dict = dict()

    # info 의 모든 조합으로 dict 만들기
    for i in range(len(info)):
        info_split = info[i].split(" ")
        str_list = []

        score = int(info_split.pop())

        # 16개의 조합을 만들땐 스택(큐)을 이용한다.
        # 지금까지 만든 조합들 모두를 꺼내면서 해당 자리에 단어를 넣거나, "-"를 넣는 두가지를 만들어서 다시 집어넣는다.
        
        # 초기에 첫단어와 "-" 넣기
        str_list.append(info_split[0])
        str_list.append("-")

        for j in range(1, len(info_split)):
            length = len(str_list)
            
            # 현재 존재하는 조합의 개수만큼 다음 단어를 넣거나 "-"를 넣는 두가지를 만들어서 다시 집어넣는다.
            for _ in range(length):
                temp = str_list.pop(0)
                str_list.append(temp+info_split[j])
                str_list.append(temp+"-")

        for st in str_list:
            if st not in info_dict:
                info_dict[st] = []
                info_dict[st].append(score)
            else:
                info_dict[st].append(score)

    # dict의 score들을 정렬하기
    for idk in info_dict.keys():
        info_dict[idk].sort()

    # 모든 query에 대해서 점수를 구하고 그 점수 이상인 조합들의 개수를 구한다.
    for i in range(len(query)):
        q_split = query[i].replace('and', '').split(" ")

        # print(q_split)
        temp_str = ""
        score = int(q_split.pop())

        for j in range(len(q_split)):
            temp_str += q_split[j]

        if temp_str not in info_dict:
            answer.append(0)
            continue
        else:
            score_list = info_dict[temp_str]

        left_index = bisect_left(score_list, score)

        # print(score_list)
        # print(score, len(score_list) - left_index)
        
        answer.append(len(score_list) - left_index)

    return answer

'Algorithm > 문제풀이' 카테고리의 다른 글

[프로그래머스] 튜플 (0)	2021.05.07
[프로그래머스] 불량 사용자 (0)	2021.05.06
[프로그래머스] 보석 쇼핑 (0)	2021.05.06
[프로그래머스] 풍선 터뜨리기 (0)	2021.04.14