AI/Theory_Private12 전처리 Reference. 딥러닝 파이토치 교과서 9.2 전처리 과정 문장 - 결측치 확인 및 토큰화 - 단어 색인 - 불용어 제거 - 축소된 단어 색인 - 어간 추출 1. 결측치 확인 확인 df.isnulll().sum() 결측치 확인 후 sum으로 몇 개 인지 확인 df.isnall().sum()/len(df) 결측치 비율 처리 df = df.dropna(how='all') 모든 행이 NaN일 때만 삭제 df = df.dropna() 데이터에 하나라도 NaN 값이 있으면 행을 삭제 df = df.filllna(0) 결측치를 0으로 df['x'].filllna(df['x'].mean(), inplace=True) 결측치 평균으로 채우기 이외에도 데이터에 하나라도 NaN 값이 있을 때 행 전체를 삭제 데이터가 .. 2023. 6. 10. GRU 게이트 순환 신경망 GRU 구조 GRU는 LSTM에서 사용하는 망각 게이트와 입력 게이트를 하나로 합친 것 LSTM의 구조를 조금 더 간단하게 만든 것. 하나의 게이트 컨트롤러(gate controller)가 망각 게이트와 입력 게이트를 모두 제어함. 게이트 컨트롤러가 1을 출력하면 망각 게이트는 열리고, 입력 게이트는 닫힘. 반대로 0을 출력하면 망각 게이트는 닫히고 입력 게이트는 열림 즉, 이전 기억이 저장될 때마다 단계별 입력은 삭제되는 것. GRU는 출력 게이트가 없어 전체 상태 벡터가 매 단계마다 출력되며, 이전 상태의 어느 부분이 출력될지 제어하는 새로운 게이트 컨트롤러가 별도로 존재. 망각 게이트 망각 게이트(reset gate)는 과거 정보를 적당히 초기화(reset)시키려는 목적으로 시그모이드 함수를 출력으.. 2023. 5. 27. 성능최적화_하이퍼파라미터 Reference: https://github.com/gilbutITbook/080289 GitHub - gilbutITbook/080289 Contribute to gilbutITbook/080289 development by creating an account on GitHub. github.com 하이퍼 파라미터 이용 성능최적화 방법: 배치 정규화, 드롭아웃, 조기 종료 https://colab.research.google.com/drive/1O2zUv7Uo3m86de8dJKdfiUi7rPLQcP5l?authuser=2#scrollTo=Vp21uF5gsIST Google Colaboratory Notebook Run, share, and edit Python notebooks colab.resear.. 2023. 5. 7. Time Series Regression 1 출처: https://youtu.be/7Do_hixXCpc 시계열 데이터 시간의 흐름에 따라 순서대로 관측되어 시간의 영향을 받게 되는 데이터 시간에 따른 제품의 판매량 시간에 따른 실업자 수 시간에 따른 서울시 오염 정도 구성요소 실제 데이터는 추세 + 순환 + 랜덤으로 구성 추세변동 Trend 시간이 경과함에 따라 관측값이 지속적으로 증가하거나 감소하는 "추세"를 갖는 경우. 단시간 보다는 최소 1년 이상 등 장시간 상승, 하강 등 순환변동 Cycle 시작했던 시점으로 다시 돌아오는 구조 주기적인 변화를 가지지만 계절이 아니고, 주기가 긴 경우 계절 변동 Seasonal variation 주기 변동, 사이클의 한 형태. 사이클의 주기가 계절 주별, 월별, 계절별과 같이 주기적인 요인에 의한 변동 우연.. 2023. 4. 20. 이전 1 2 3 다음