본문 바로가기

Python409

[데이터 사이언스 스쿨] 4.1 판다스 패키지 소개 대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있다. 판다스(Pandas) 패키지는 이러한 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공한다. ● 시리즈 클래스 시리즈 = 값(value) + 인덱스(index) 데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다. 이 때 인덱스의 길이는 데이터의 길이와 같아야 한다. 인덱스의 값을 인덱스 라벨(label)이라고도 한다. 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능하다. ● 시리즈 연산 벡터화 연산을 할 수 있다. 다만 연산은 시리즈의 값에만 적용되며 인덱스 값은 변하지 않는다. ● 시리즈 인덱싱.. 2021. 4. 27.
[데이터 사이언스 스쿨] 3.5 난수 발생과 카운팅 ● 시드(seed) 설정하기 시드는 보통 현재 시각등을 이용하여 자동으로 정해지지만 사람이 수동으로 설정할 수도 있다. 특정한 시드값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측할 수 있다. 인수로는 0과 같거나 큰 정수를 넣어준다. ● 데이터 샘플링(sampling): 표본 선택 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것 numpy.random.choice(a, size=None, replace=True, p=None) a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성 size : 정수. 샘플 숫자 replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능 p : 배열. 각 데이터가 선택될 수 있는 확률 ★★★ unique 함수는 데이.. 2021. 4. 26.
[데이터 사이언스 스쿨] 3.4 기술 통계 ● 기술 통계(descriptive statistics) 표준 편차(standard deviation) 최댓값(maximum) 최솟값(minimum) 중앙값(median) 사분위수(quartile) - 출처: [데이터 사이언스 스쿨] 3.4 기술 통계 2021. 4. 26.
[데이터 사이언스 스쿨] 3.3 배열의 연산 ● 벡터화 연산(vectorized operation) 벡터화 연산을 쓰면 명시적으로 반복문을 사용하지 않고도 배열의 모든 원소에 대해 반복연산을 할 수 있다. 벡터화 연산의 또다른 장점은 선형 대수 공식과 동일한 아주 간단한 파이썬 코드를 작성할 수 있다는 점이다. ● 스칼라와 벡터/행렬의 곱셈 ● 브로드캐스팅 벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 한다. 넘파이에서는 서로 다른 크기를 가진 두 배열의 사칙 연산도 지원한다. 이 기능을 브로드캐스팅(broadcasting)이라고 하는데 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방법이다. - 스칼라 스칼라는 크기. 사과 1개, 사람 1명, 속력 ~얼마와 같은 값들. 즉, 방향성이 없는.. 2021. 4. 26.