🤔 자연어를 전처리해보자

특수문자	설명
.	임의의 한 문자를 의미합니다. 단, 줄바꿈 문자(\n)는 제외됩니다.
?	앞의 문자가 있을 수도, 없을 수도 있음을 나타냅니다 (즉, 0개 또는 1개).
*	앞의 문자가 0개 이상, 즉 없어도 되고 무한히 있을 수도 있음을 의미합니다.
+	앞의 문자가 1개 이상 반드시 있어야 함을 의미합니다.
^	이 기호의 뒤의 문자열로 문자열이 시작되어야 합니다.
$	이 기호의 앞에 있는 문자열로 문자열이 끝나야 합니다.
{숫자}	정확히 지정한 숫자만큼 반복되는 패턴임을 의미합니다.
{숫자1, 숫자2}	최소 숫자1번, 최대 숫자2번 반복됨을 의미합니다.
{숫자,}	지정한 숫자 이상 반복되는 패턴임을 의미합니다.
[ ]	대괄호 안에 있는 문자들 중 한 개와 일치함을 의미합니다.
[^문자]	대괄호 안의 특정 문자를 제외한 모든 문자와 일치함을 의미합니다.
\|	A\|B와 같이 쓰이며 A 또는 B의 의미를 가집니다.

문자 규칙	설명
\\\	역슬래시 자체를 의미합니다. (특수문자를 일반 문자로 사용할 때 씁니다.)
\\d	모든 숫자(0-9)와 일치합니다.
\\D	숫자가 아닌 모든 문자와 일치합니다.
\\s	공백 문자(스페이스, 탭, 줄바꿈 등)와 일치합니다. ([\t\n\r\f\v])
\\S	공백 문자를 제외한 모든 문자와 일치합니다. ([^\t\n\r\f\v])
\\w	알파벳(대문자, 소문자), 숫자, 밑줄(_) 등 '단어'를 구성하는 문자와 일치합니다. ([a-zA-Z0-9])
\\W	알파벳, 숫자, 밑줄이 아닌 모든 문자와 일치합니다.

모듈 함수	설명
re.compile()	정규 표현식 패턴을 미리 컴파일해서, 이후 여러 번 사용할 수 있도록 준비합니다.
re.search()	문자열 전체를 검색하여, 정규 표현식에 맞는 부분이 있는지 확인합니다. (찾으면 첫 번째 매치 결과를 반환)
re.match()	문자열의 시작 부분이 정규 표현식과 일치하는지 검사합니다.
re.split()	정규 표현식을 기준으로 문자열을 분리하여, 리스트 형태로 결과를 반환합니다.
re.findall()	문자열에서 정규 표현식과 일치하는 모든 부분을 찾아 리스트로 반환합니다.
re.finditer()	문자열에서 정규 표현식과 일치하는 모든 부분을 반복 가능한 객체(iterator)로 반환합니다.
re.sub()	문자열에서 정규 표현식과 일치하는 부분을 다른 문자열로 대체합니다.

✍🏻 정규 표현식