회귀 - 30분 뒤의 Y값 예측 (RMSE ↓)
X = [10, 20, 30, 40, ... ]
분류 - 30분 뒤의 Y값 상승 / 하락 이진분류 (Acc ↑)
예를 들어서 t시점에 x값이 100인데 t+30(min)에 110이면 up(1)으로 라벨링, 90이면 down(0)으로 라벨링 이런 식으로 만들어서
다변량으로 up/down 예측하는 ㅇㅇ
X = [ [10,0], [20,1], [30,0], ... ]
이 문제에서 회귀랑 분류모델 결합해서 rmse를 낮추거나 acc를 높이거나 할 수 있는 아이디어 뭐 있을까?
계속 joint classification-regression 이런 식으로 찾아보고 있는데 이거다 싶은게 안 보여성
5개의 댓글
무분별한 사용은 차단될 수 있습니다.
개붕아정신좀차리자
내가 문제를 이해 못하는건가
앞의 회귀 추정에 대해서 뒤의 분류 문제가 종속적인데
그걸 두개를 써서 예측하겠다는게 난 이해가 안되는데
즉 회귀 추정의 결과가 옳다면 마땅히 분류 문제도 옳은 결과값이 도출되는데 동일한 시점 time t에 대한 추정이 의미가 있어?
예전부터 하던 생각이 하나 있는데
Time t의 단위가 min 이라면 t의 값을 예측하는 문제 (회귀 추정)에 대해서 다변수에 대한 연속적인 분류 문제 (clustering이든 뭐든)를 min 이 아니라 sec 같은걸로 훨씬 쪼개서 time t의 값을 추정하는건 어떨까?
Lllzka
아 저게 sampling rate 5분짜리 데이터가 몇천개씩 있는시계열 데이터라서 예측값 yhat도 몇백개가 나오다보니까 rmse도 20~25정도 나오고 분류일때는 acc가 73%정도 나오다보니까 종속적이더라도 어떤 식으로든 결합하면 성능이 좀 좋아질 수 있지 않을까 싶어서 ㅇㅇㅇ
예를 들면 분류에서는 30분 뒤의 혈당을 up으로 예측했는데 회귀에서도 30분 뒤의 혈당값이 100에서 110으로 상승하면 가중치를 더 준다던가 이런 식으루
뒤에는 내가 금융이나 신호처리쪽만 하다보니까 내일 주가가 오를지 떨어질지, 30분 뒤의 혈당이 오를지 내려갈지만 해봤지 time t에 대한 추정은 안 해봐서 모르겠당
Curriculum
완전히 종속적이면 둘이 결합해서 성능이 올라가는건 우연이고(overfitting), 회귀의 성능에 분류의 성능이 완전히 dependent하다고 봐야지
퍄퍄존슨
분류의 성능을 높이려고 하는 건지 회귀의 성능을 높이려고 하는 건지 모르겠지만 모든 해결책은 딥러닝으로...
멍청이
결국 데이터 모아서 예측하는거면 마코프 몬테카를로 아님?