✨Data Science

명예학회를 함께 하고 있는 친구들과 처음 AI EXPO를 다녀왔다. 이런 엑스포가 있는 줄 생각도 못했는데 굉장히 기대되었다.  많은 기업들이 AI를 이용한 사업들을 전시하고 있었는데 다양한 사업들 중 가장 인상깊었던 것은 두가지였다. 첫번째는 AI를 로봇에 접목한 사례였는데, 실제로 직접보는건 처음이여서 신기했다.    그리고 두번째는 엑스퍼트아이엔씨 에서 내놓은 ‘AI음성-자막 변환 스마트 자막 안경이였다.  안경은 주변 소리를 인식해 자막으로 투영하는 기능을 탑재하고 있으며, 청각장애인 분들이 다양한 국적의 사람들과 소통하는 데 큰 도움이 될 것으로 보였다.  또한, 전시회에서는 다양한 도메인을 타겟으로 한 LLM 모델들이 활발하게 활용되고 있었는데,  다소 익숙한 분야여서 그런지 설명이 매우 친숙..
머신러닝 학습절차: 문제정의 → 데이터전처리 → 학습 → 평가 1. 문제정의 내가 해결하고자 하는 문제가 무엇인지 이해하고, 어떤 목표를 달성하고 싶은지 정의하는 단계 지도학습은 학습데이터에 레이블이 있는 형태로 진행한다. 레이블값이 범주형 데이터, 즉 A타입, B타입, C타입 같이 범주로 구성되어있고 범주형 데이터를 예측하기 위한 문제를 ‘분류 문제’라고 한다. 💡 특히 범주 유형이 성공/실패 같이 두가지만 존재하는 문제를 “이진분류”라고 한다. 레이블 값이 범주형 데이터가 아닌 연속된 실수형인 지도학습의 유형을 ‘회귀 문제’라고 한다. 부동산 가격, 주식 가격등 수치를 예측하는 문제는 회귀 문제로 정의하고 머신러닝을 수행한다. 비지도학습은 지도학습과 다르게 학습 데이터에 레이블이 존재하지 않는다. 분..
분류의 성능 평가 지표 정확도 오차행렬 정밀도 제햔울 F1 스코어 ROC AUC 1. 정확도 정확도는 실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표 불균형한 데이터의 경우에는 정확도는 적합한 평가 지표가 아니다. 2. 오차행렬 오차행렬은 학습된 분류모델이 예측을 수행하면 얼마나 헷갈리고 있는 지도 함께 보여주는 지표 이진분류의 예측 오류가 얼마인지와 어떠한 유형의 오류가 발생하고 있는지도 보여준다. 정확도 =예측결과와 실제 값이 동일한 건수 / 전체 데이터의 수 ㅇ (TN + TP) / (TN + FP + FN +TP) 3. 정밀도와 재현율 정밀도와 재현율은 Positive 데이터 세트의 예측 성능에 좀 더 초점을 맞춘 성과지표이다. 정밀도 = TP / (FP + TP) 재현율 = TP /..
머신러닝에서 Train 데이터와 Test 데이터는 모델의 학습과 성능 평가를 위해 사용되는 데이터 세트이다. Train 데이터 Train 데이터는 머신러닝 모델을 학습시키는 데 사용되는 데이터 세트이다. Train 데이터에는 입력 변수(Features)와 해당하는 정답(Label 또는 Target)이 함께 포함된다. 모델은 Train 데이터를 사용하여 입력 변수와 정답 간의 관계를 학습하여 최적의 예측 모델을 생성한다. 일반적으로 Train 데이터는 전체 데이터의 일부분으로 구성됩니다. 보통 70-80% 정도의 데이터를 Train 데이터로 사용한다. Test 데이터 Test 데이터는 학습된 머신러닝 모델의 성능을 평가하기 위해 사용되는 데이터 세트이다. Test 데이터에는 입력 변수(Features)만 ..
1. 머신러닝 컴퓨터가 데이터에서 패턴이나 규칙을 스스로 학습하여 예측이나 결정을 할 수 있는 알고리즘 기술의 집합 2. 데이터 정보의 집합으로 숫자, 텍스트, 이미지, 비디오 등으로 구성 될 수 있다. 머신러닝 모델은 데이터를 기반으로 학습하고 예측을 수행한다. 3. 모델 데이터로부터 학습된 알고리즘 또는 수학적인 함수이다. 모델은 입력된 특성을 기반으로 예측을 수행하거나 패터능ㄹ 발견한다. 4. 특성(Feature) 머신러닝 모델에 입력되는 변수들을 의미한다. 독립변수, 설명변수로 불리기도 한다. ex) 주택 가격을 예측하는 모델에서는 주택의 크기, 위치 등이 특성이 될 수 있다. => 모델은 이러한 특성을 사용하여 target변수를 예측하려고 한다. 5. 레이블(Lable) 머신러닝 모델이 학습할 ..
1. 넘파이 ● 리스트의 요소로 다른 리스트를 포함시키는 구조 => 2차원 배열 my_list_2 = [[10,20,30],[40,50,60]] 파이썬 리스트로 3개의 요소를 가친 1차원 배열을 2개 쌓은 예 2*3크기라고 이야기하며 2개의 행과 3개의 열 존재 [[10,20,30], [40,50,60]] ● 2차원 배열의 요소를 선택할 때 -> 2개 대괄호 사용 - 첫번째 대괄호: 행의 인덱스 - 두번째 대괄호: 열의 인덱스 print(my_list_2[1][1]) 50 두번째 열의 두번째 행을 선택했기 때문에 50출력 #넘파이는 파이썬 리스트처럼 문자열과 숫자 담을 수 없다 2. 맷플롯립 표준 그래프 패키지 별칭으로 plt를 사용 (1) 선그래프 그리기 선그래프를 그릴려면 x축 값과 y축 값을 지정해..
kiwiio_v
'✨Data Science' 카테고리의 글 목록