본문 바로가기

dataframe

Python : Pandas 기본 - DataFrame #3 Describe() df.describe()는 pandas에서 제공하는 메서드로, DataFrame의 수치형 데이터에 대한 기초적인 통계 요약을 출력합니다. 이를 통해 데이터의 분포를 이해하고 데이터 분석의 첫걸음을 빠르게 시작할 수 있습니다.1. df.describe()의 기본 기능 출력 내용: count: 각 열에서 결측값이 아닌 데이터의 개수. mean: 각 열의 평균값. std: 각 열의 표준 편차. min: 각 열의 최소값. 25%: 1사분위수 (데이터의 하위 25%가 속하는 값). 50%: 중앙값 (데이터의 중간값, 2사분위수). 75%: 3사분위수 (데이터의 상위 25% 경계값). max: 각 열의 최대값. 기본 사용법:import pandas as pd# 예제 데이터 생성data = { 'Age': [2.. 더보기
Python : Pandas 기본 - DataFrame #2 이 블로그에서는 DataFrame의 기본적인 사용법에 대하여 설명합니다.  데이터 선택DataFrame 의 데이터는 테이블처럼 열과 행으로 구성되어 있습니다. 그래서 아래와 같은 방법으로 각 데이터에 접근합니다.열 선택: df['column_name'] 또는 df.column_name.여러 열 선택: df[['col1', 'col2']].행 선택: df.iloc[index] (정수 인덱스 사용), df.loc[label] (레이블 사용)import pandas as pd# 예제 DataFramedata = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'San Francisco', 'Los .. 더보기
Python : Pandas 기본 - DataFrame #1 pandas는 Python에서 데이터 분석과 조작을 위해 널리 사용되는 라이브러리입니다. 특히, DataFrame은 pandas의 핵심 데이터 구조로, 구조화된 데이터를 직관적이고 효율적으로 다룰 수 있게 해줍니다. 1. DataFrame의 정의 DataFrame은 행(row)과 열(column)로 구성된 2차원 데이터 구조입니다. 이를 테이블 형태로 생각하면 쉽습니다. 각 열은 특정 데이터 유형을 가지며, 행은 레이블로 식별됩니다. 주요 특징:레코드 기반: 각 행은 레코드를 나타냅니다.열 기반: 각 열은 데이터를 설명하는 속성을 나타냅니다.레이블 지원: 행과 열 모두 레이블을 지정할 수 있어, 인덱스 및 컬럼명을 통해 데이터를 쉽게 접근 가능합니다. 2. DataFrame의 중요성데이터 조작의 용이성:.. 더보기
Python : Pandas Dataframe의 groupby, pivot_Table에 대한 완벽 가이드 Pandas는 데이터 조작과 분석을 위해 설계된 강력하고 유연한 Python 라이브러리입니다. Pandas는 Series와 DataFrame과 같은 기본 데이터 구조를 제공하여 구조화된 데이터를 효율적으로 처리할 수 있습니다. 직관적인 문법과 다양한 기능 덕분에 데이터 과학자, 분석가, 엔지니어들에게 필수 도구로 자리 잡고 있습니다. DataframeDataFrame은 Pandas에서 제공하는 2차원 데이터 구조로, 크기가 변경 가능하며 이질적인 데이터를 담을 수 있습니다. 관계형 데이터베이스의 테이블이나 Excel의 스프레드시트와 유사하며, 행(row)과 열(column)로 구성되어 있습니다. DataFrame은 보통 아래와 같이 사용합니다. import pandas as pddata = { 'N.. 더보기
Python : Pandas 를 이용한 엑셀 작업 예제 CSV를 읽어 피봇 테이블을 만들고 값에 따라 Color Scale 을 적용하는 업무는 자주 있는 일입니다.  이 블로그에서는 Pandas를 사용하여 위와 같은 복잡한 요건을 처리하는 예제를 작성해 봅니다.요건 :  CSV 파일에는 아래와 같은 컬럼이 있다고 가정합니다. 특정 페이지에 링크된 리소스 파일들(html, css, js 등)의 이름과 최적화 전후 파일크기와 감소량을 보여줍니다.PageName, fileName, before, after, gz_before, gz_after, saving, gz_saving 한 페이지에는 여러 리소스들이 존재하고, 여러 페이지에 공통으로 존재하는 파일들도 많기 때문에 리소스 파일이름(fileName) 으로 그룹핑하여  특정 파일에 어떤 페이지들이 얼마만큼 최적화.. 더보기