문제 <문자열 압축>
데이터 처리 전문가가 되고 싶은 "어피치"는 문자열을 압축하는 방법에 대해 공부를 하고 있습니다.
최근에 대량의 데이터 처리를 위한 간단한 비손실 압축 방법에 대해 공부를 하고 있는데, 문자열에서 같은 값이 연속해서 나타나는 것을 그 문자의 개수와 반복되는 값으로 표현하여 더 짧은 문자열로 줄여서 표현하는 알고리즘을 공부하고 있습니다.
- 예를 들어, "ababcdcdababcdcd"의 경우 문자를 1개 단위로 자르면 전혀 압축되지 않지만, 2개 단위로 잘라서 압축한다면 "2ab2cd2ab2cd"로 표현할 수 있습니다. 다른 방법으로 8개 단위로 잘라서 압축한다면 "2ababcdcd"로 표현할 수 있으며, 이때가 가장 짧게 압축하여 표현할 수 있는 방법입니다.
- 다른 예로, "abcabcdede"와 같은 경우, 문자를 2개 단위로 잘라서 압축하면 "abcabc2de"가 되지만, 3개 단위로 자른다면 "2abcdede"가 되어 3개 단위가 가장 짧은 압축 방법이 됩니다. 이때 3개 단위로 자르고 마지막에 남는 문자열은 그대로 붙여주면 됩니다.
압축할 문자열 s가 매개변수로 주어질 때, 위에 설명한 방법으로 1개 이상 단위로 문자열을 잘라 압축하여 표현한 문자열 중 가장 짧은 것의 길이를 return 하도록 solution 함수를 완성해주세요.
입출력
- s의 길이는 1 이상 1,000 이하입니다.
- s는 알파벳 소문자로만 이루어져 있습니다.
- s = "aabbaccc", result = 7
- s = "ababcdcdababcdcd", result = 9
- s = "abcabcdede", result = 8
- s = "abcabcabcabcdededededede", result = 14
- s = "xababcdcdababcdcd", result = 17
- 문자열은 제일 앞부터 정해진 길이만큼 잘라야 합니다.
- 따라서 주어진 문자열을 x / ababcdcd / ababcdcd 로 자르는 것은 불가능 합니다.
- 이 경우 어떻게 문자열을 잘라도 압축되지 않으므로 가장 짧은 길이는 17이 됩니다.
풀이
- 문자열을 압축하는 단위를 1부터 문자열 길이의 절반까지 설정해야겠다는 생각을 먼저 하였다.
- 그 후 나눈 단위로 문자열이 연속으로 반복되는지 여부만 판단하면 되겠다!
- 나눈 문자열에 대한 정보도 필요할까?
- 연속 여부만 판단한다면 이전 문자열과 비교만 하면 될 거 같다!
- 문자열을 압축하는 단위(1~문자열 길이 절반)로 돌아가는 for 문
- 문자열의 길이를 저장하는 result를 만들자
- 문자열의 길이만큼 돌아가는 for 문
- 문자열이 연속으로 반복된다면 반복 횟수 증가시키기
- 문자열이 연속으로 반복되지 않는다면?
- 이전에 반복됐다면?
- 이전에 반복되지 않았다면?
에 대한 조건을 큰 틀로 생각하여 코드를 작성해 보았다.
def solution(s):
m = 1000
if len(s) == 1: # 문자열 길이가 1일 때 따로 처리
return 1
for i in range(1, len(s)//2+1): # 문자열 길이의 반이 압축 길이의 최대
result = 0 # 압축된 문자열의 길이
cnt = 1 # 반복 횟수
for j in range(0, len(s), i): # j는 0부터 문자열의 길이까지 i씩 증가
if j+2*i > len(s): # 반복될 수 없는 길이가 남았을 때
k = 0
if cnt != 1: # 반복 횟수의 자릿수가 필요함(ex 12 -> 2)
while cnt:
cnt //= 10
k += 1
result += len(s) - j + k # 남은 문자열 길이 + 반복 횟수의 자릿수 저장
break
if s[j:j+i] == s[j+i:j+2*i]: # 문자열이 반복된다면
cnt += 1 # 반복 횟수 증가시키기
elif cnt != 1: # 다음 문자열이 반복되지 않고, 반복 횟수가 존재한 경우
k = 0
while cnt: # 반복 횟수의 자릿수 구하기
cnt //= 10
k += 1
result += i + k # 해당 문자열 길이 + 반복 횟수의 자릿수 저장
cnt = 1 # 반복 횟수 1로 초기화
else: # 다음 문자열이 반복되지 않고, 이전에 반복이 안 됐을 경우
result += i # 해당 문자열 길이 저장
m = min(m, result) # 문자열 압축 길이의 최솟값 구하기
return m
정확성 테스트 28개 전부 통과
반복 횟수의 자릿수를 생각해서 코드를 짜야 하는 게 불편함.
-> 완성된 문자열을 저장하여 최소의 길이를 구하면 코드 길이를 줄일 수 있을까?
def solution(s):
m = 1000
if len(s) == 1: # 문자열 길이가 1일 때 따로 처리
return 1
for i in range(1, len(s)//2+1): # 문자열 길이의 반이 압축 길이의 최대
result = [] # 압축된 문자열을 저장할 리스트
cnt = 1 # 반복 횟수
for j in range(0, len(s), i): # j는 0부터 문자열의 길이까지 i씩 증가
if j+2*i > len(s): # 반복될 수 없는 길이가 남았을 때
if cnt > 1: # 반복 횟수가 1보다 클 때에는
result += str(cnt) # 반복 횟수 포함
result += s[j:len(s)] # 남은 문자열 더해서 저장
break
if s[j:j+i] == s[j+i:j+2*i]: # 문자열이 반복된다면
cnt += 1 # 반복 횟수 증가시키기
elif cnt != 1: # 다음 문자열이 반복되지 않고, 반복 횟수가 존재한 경우
result += str(cnt) + s[j:j+i] # 반복 횟수와 문자열 함께 저장
cnt = 1 # 반복 횟수 1로 초기화
else: # 다음 문자열이 반복되지 않고, 이전에 반복이 안 됐을 경우
result += s[j:j+i] # 해당 문자열 저장
m = min(m, len(result)) # 문자열 압축 길이의 최솟값 구하기
return m
- 큰 코드 변경 없이 완성된 문자열을 저장할 수 있었다.
- 그 결과, 반복 횟수의 자릿수를 따로 생각하지 않아도 되므로 코드가 단축되는 것을 확인할 수 있었다!
필요한 정보들을 최대한 빠르게 판단하여 코드를 작성하는 게 필요하다!
구현 문제는 문제를 풀이하기 전에 생각하는 시간을 충분히 가져야 효율적인 코드를 작성할 수 있겠다.
프로그래머스
코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.
programmers.co.kr
'CS > 알고리즘' 카테고리의 다른 글
[이코테] 구현 - 기둥과 보 설치 (0) | 2023.02.28 |
---|---|
[이코테] 구현 - 뱀 (0) | 2023.02.28 |
[이코테] 그리디 - 무지의 먹방 라이브 (0) | 2023.02.27 |
우선순위 큐(Priority Queue), heapq (0) | 2023.02.21 |
Python 정리해보기 (0) | 2023.02.15 |