Data Handling 13

7장 SQL 고급(1장 , 2장)

7-1 데이터 형식, 변수 1. 숫자데이터 형식 2. 문자 데이터 형식 CHAR은 고정이라 CHAR(100)을 잡고 3글자를 기입하면 97바이트가 낭비됨. VARCHAR는 100을 잡고 3글자 기입하면 3바이트만 사용. 공간은 효율적으로 운영할 수 있지만 CHAR 형식으로 지정하는 것이 INSERT/UPDATE시에 일반적으로 좋은성능 기본적으로 둘다 UTF-8로 설정되어있음. LONGTEXT, LONGBLOB : 소설책 / 동영상 등 저장 3. 날짜 시간 데이터 형식 시간,분,초가 필요하면 DATETIME 날짜까지만이라면 DATE까지. 형변환 예시. 4. 기타 데이터 형식 5. 변수의 사용 쿼리를 준비해놓고, ? 자리에 myVar를 대입해서 실행 시킬 수 있음. 7-2장 데이터형 변환, 내장 함수 1. ..

Data Handling/MySQL 2022.02.23

6장(SQL기본)

6-1장 SELECT FROM USE [DB name] : 어떤 DB에 접근할건지 SELECT * FROM [table name] : 테이블의 모든 column내용 조회 SELECT [columns] FROM [table name] : 테이블의 특정 column조회 - ex) SELECT first_name, gender FROM employees; : 여러 열 조회 SHOW DATABASES; : DB목록 조회 SHOW TABLE STATUS; : 현재 선택된 DB의 테이블들의 정보 조회 DESCRIBE [table name]; : 해당 table의 정보 조회 6-2장 샘플 데이터베이스 생성 6-3장 WHERE절 1.특정 column의 값 지정 2. 관계연산자 사용 - AND, OR 3. BETWEEN..

Data Handling/MySQL 2022.02.11

특정 컬럼명을 변경하려면

강의를 듣는데, column값을 바꾸고 있었다. Confirmed 열을 1/22/2020으로 바꿔주기 위해서 위와같은 코드로 바꿔주는데 (date_column은 string으로 되어있다) columns는 index라 아래 코드처럼 하려고 하면 안된다. doc.columns['Confirmed] = date_column 아래와 같이 컬럼이 수십개가 넘어가면 일일이 ['A' ... 'Z'] 다 써주고 바꿀 부분만 수정해서 쓸건가? 모두 String이기 때문에 철자하나, 대소문자 하나 틀리면 바로 오류나기 때문에 컬럼을 list로 가져와서 작업하면 된다. 컬럼명 'M'을 바꿔보자. 위와같이 columns를 리스트로 변환하고 리스트의 메소드인 index로 'M'의 인덱스를 찾아 col['M의 인덱스값']으로 접..

3장 - 4,5교시 정리

View 뷰(View)란 가상의 테이블 실체는 없고, 테이블에 링크된 개념 테이블의 모든 정보를 오픈하지 않고, 일부만 가상의 데이터만 오픈함 위를 보면 memberTBL엔 memberID, memberName, memberAddress가 있지만 뷰에 보면 memberID, memberAddress만 접근가능하다. (memberName은 접근 불가) 스토어드 프로시져(Stored Procedure) Mysql에서 제공하는 프로그래밍 기능(다른 프로그래밍 언어와 같은 기능을 담당) 저 당탕이와 냉장고를 부르는 쿼리를 자주 부른다고 가정해보자. 위와같이 procedure를 만들고 호출하게 되면 일일이 저 두 쿼리를 작성하고 호출하지 않고 myProc를 호출하는 것 만으로도 실행할 수 있다. 트리거 다른 테이..

Data Handling/MySQL 2021.06.12

03장- 1/2/3 교시 내용 정리

정보시스템 구축 : 분석 , 설계, 구현, 시험, 유지보수 5가지 단계. 데이터베이스 모델링과 필수 용어 데이터베이스 모델링 : 분석과 설계 과정중 가장 중요한 과정. 현실세계에서 사용되는 데이터를 MySQL에 어떻게 옮겨놓을 것인지 결정하는 과정. (속성들을 뽑아내는 과정) Table : 표 형태. row/col 구성. 일반적으로 알고있는 내용과 별반 다를게 없음. 열에는 데이터 타입이 있음. Primary Key : 유일한 키 . 중복될 수 없는 키. 비어있으면 안됨(Not Null) Database : 데이터의 저장소. DBMS는 데이터베이스를 관리해주는 소프트웨어. DBMS와 소통할 언어를 SQL이라 함. GUI환경에서 만드는 것을 SQL을 사용하면 아래와 같은 쿼리로 작성 가능함. SELECT문..

Data Handling/MySQL 2021.06.01

ARIMA 모델

ARIMA 모델 Autoregressive Integrated Moving Average는 개발된지 오래된 방법이지만 시계열 데이터 분석을 위해 이해해야 하는 중요한 모델링 또는 예측 기법이다. 여기 나오는 개념들을 이해하는것이 좋다. Stationary vs Non-stationary time series Seasonal vs Non-seasonal ARIMA Autoregressive - AR(p) Integrated - I(d) Moving Average - MA(q) Stationary 데이터 특성 - 연속되는 숫자들의 평균 / 분산 / 공분산이 시간에 따라서 변하지 않으면 Stationary하다고 한다. ARIMA 모델이 효과적으로 적용이 되려면 Data가 Stationary 특성을 보여야한다...

Pandas로 하는 시계열 데이터분석 (4) [시계열 데이터 분석 기본 모델]

1. SImple Moving Average Rolling mean 시켜서 하는거랑 다를바 없음 2. Weighted Moving Average window가 길어지면 그만큼 앞의 missing data도 많아지고, Trend도 늦게 반영한다. Moving Average라서 극단값을 쫓아가지 못한다. 샘플에다가 Weight를 주는데, 최근것에다가 크게 준다. 오래된 데이터일수록 사라져가게끔. 3. Simple Exponential Smoothing F는 Forcast의 F, A는 Actual의 A 예측 Residual이 다들 크다. Trend와 Seasonality 반영도 안됨 보완하는 방법으로 홀츠 Exponential Smoothing = 트랜드, Seasonality 반영 window size만큼 ..

Pandas로 하는 시계열 데이터분석 (3) [시계열 데이터 특성 및 ETS모델이해]

시계열 데이터 특성 : Level + Trend + Seasonality + Noise (Error) - Level은 Decomposition이 불가능해서 Noise에 속한다. Trends Seasonality : 반복되는 트렌드 Cyclical : 일정하지 않은 기간의 트렌드 +Noise ETS모델 : 데이터의 패턴을 더 잘 파악하기 위해서 또는 예측을 수행하기 위해 Smoothing을 한다. Smoothing을 위해서 Error, Trend, Seasonality 요소들을 활용하는데, 각각을 더하거나 곱하여 Smoothing을 한다. 이것들을 가지고 시계열 데이터를 모델링 할 수 있다. ETS Decomposition : ETS 컴포넌트들을 시각화 하는 것은 데이터의 흐름을 이해하는데 큰 도움이 된다..

Pandas로 하는 시계열 데이터분석 (2) [TimeZone, Visualize]

TimeZone localize로 설정한 것과 replace로 tzinfo를 바꾼것에서 시간차이가 나니 localize를 써서 바꾸자. 그 시간에 맞게끔 timezone 을 바꾸면서 datetime도 같이 조정해 주고싶다면 .astimezone으로 바꾸면 된다. 둘이 2018-12-31 15:00 과 2019-1-1 00:00 이 같다고 나옴. timezone이 다른것을 보정해서 bool 연산을 해준다.(신기하네) 최근 금요일을 구하는데, timedelta로 더하는게 위와같은 오류(주석)를 없애준다. DataFrame의 시각화 Apple 주식의 Volume과 Adj Close를 가져와서 그려보면 둘간의 scale차이떄문에 Adj Close가 Constant처럼 보인다. 하지만 분명히 변동성을 가지고있음...