머신 러닝 모델 튜닝 #21

cyberprophet · 2023-07-18T16:35:38Z

cyberprophet
Jul 18, 2023
Maintainer

머신 러닝 모델을 튜닝하기 위해 다양한 방법들이 있습니다. 이러한 방법들을 사용하여 모델의 성능을 향상시킬 수 있습니다. 아래는 몇 가지 일반적인 튜닝 방법들입니다:

하이퍼파라미터 튜닝: 하이퍼파라미터는 모델 학습 과정에서 사용자가 직접 설정해야 하는 매개변수들을 의미합니다. 이들은 모델의 학습 속도, 규제 정도, 트리의 깊이 등과 같은 모델의 구조와 학습 과정에 영향을 줍니다. Grid Search, Random Search, Bayesian Optimization 등의 방법을 사용하여 최적의 하이퍼파라미터를 찾을 수 있습니다.
교차 검증: 교차 검증은 데이터를 여러 개의 폴드(fold)로 나누어 각각의 폴드를 검증 데이터로 사용하고, 나머지 폴드를 학습 데이터로 사용하는 방법입니다. 이를 통해 모델의 일반화 성능을 더 정확하게 평가할 수 있습니다.
오버샘플링과 언더샘플링: 데이터가 불균형할 때는 양성 클래스 샘플을 증가시키는 오버샘플링이나 음성 클래스 샘플을 감소시키는 언더샘플링을 사용하여 클래스 간의 균형을 맞출 수 있습니다.
클래스 가중치 설정: 모델 학습 시 양성 클래스와 음성 클래스에 가중치를 부여하여 불균형 문제를 감안할 수 있습니다.
다른 모델 시도: 머신 러닝 알고리즘은 서로 다른 특성과 장단점을 가지고 있습니다. 다른 모델을 시도하면서 어떤 모델이 문제에 더 적합한지 탐색해 볼 수 있습니다.
특성 엔지니어링: 모델에 입력되는 특성들을 적절히 가공하거나 새로운 특성들을 생성하여 모델의 학습에 도움을 줄 수 있습니다.
앙상블: 여러 개의 모델을 조합하여 하나의 모델보다 더 좋은 성능을 얻을 수 있습니다. 앙상블 방법 중 대표적인 것은 보팅(Voting)과 배깅(Bagging), 부스팅(Boosting) 등이 있습니다.

이러한 방법들을 조합하여 모델의 성능을 향상시키는 데 도움이 됩니다. 하지만 모든 방법이 항상 높은 성능을 보장하는 것은 아닙니다. 따라서 실험과 평가를 통해 최적의 방법을 찾아내는 것이 중요합니다. 모델 튜닝은 시행착오를 거치는 과정이기 때문에 여러 번의 시도와 실험이 필요할 수 있습니다.

cyberprophet · 2023-07-18T16:40:02Z

cyberprophet
Jul 18, 2023
Maintainer Author

The first attempt to find stocks that will rise more than 15% in a week

{
  "StartProcess" : "2023-07-19 오전 1:08:47"
}
{
  "LogLoss": 0.20808589574102304,
  "LogLossReduction": 0.0470977509602013,
  "Entropy": 0.21837066283630124,
  "AreaUnderRocCurve": 0.6768702336600017,
  "Accuracy": 0.9649389648966848,
  "PositivePrecision": 0.2608695652173913,
  "PositiveRecall": 0.0026097492776586823,
  "NegativePrecision": 0.9651848285106356,
  "NegativeRecall": 0.9997326542601769,
  "F1Score": 0.005167799686240734,
  "AreaUnderPrecisionRecallCurve": 0.08055265849341088,
  "ConfusionMatrix": {
    "PerClassPrecision": [
      0.2608695652173913,
      0.9651848285106356
    ],
    "PerClassRecall": [
      0.0026097492776586823,
      0.9997326542601769
    ],
    "Counts": [
      [
        84.0,
        32103.0
      ],
      [
        238.0,
        889995.0
      ]
    ],
    "NumberOfClasses": 2
  }
}
{ 
  "EndProcess" : "2023-07-19 오전 1:25:41",
  "Satisfy" : "3.49%"
}

1 reply

cyberprophet Jul 19, 2023
Maintainer Author

{
  "StartProcess": "2023-07-20 오전 12:46:59"
}
{
  "LogLoss": 0.2079194975730054,
  "LogLossReduction": 0.04785602993713468,
  "Entropy": 0.21836980972454986,
  "AreaUnderRocCurve": 0.6803153942164376,
  "Accuracy": 0.9648112659446242,
  "PositivePrecision": 0.22357723577235772,
  "PositiveRecall": 0.0034169980119284292,
  "NegativePrecision": 0.9652067725436949,
  "NegativeRecall": 0.9995709677709192,
  "F1Score": 0.006731122261657079,
  "AreaUnderPrecisionRecallCurve": 0.09005377999135955,
  "ConfusionMatrix": {
    "PerClassPrecision": [
      0.22357723577235772,
      0.9652067725436949
    ],
    "PerClassRecall": [
      0.0034169980119284292,
      0.9995709677709192
    ],
    "Counts": [
      [
        110.0,
        32082.0
      ],
      [
        382.0,
        889994.0
      ]
    ],
    "NumberOfClasses": 2
  }
}
{
  "EndProcess": "2023-07-20 오전 1:04:21",
  "Satisfy": "3.49%"
}

cyberprophet · 2023-07-22T08:30:39Z

cyberprophet
Jul 22, 2023
Maintainer Author

public TDst Predict(TSrc example, int? horizon = null, float? confidenceLevel = null)
{
    TDst prediction = new TDst();

    Predict(example, ref prediction, horizon, confidenceLevel);

    return prediction;
}

0 replies

cyberprophet · 2023-07-27T16:11:00Z

cyberprophet
Jul 27, 2023
Maintainer Author

SdcaLogisticRegressionBinaryTrainer.Options.MaximumNumberOfIterations은 하이퍼파라미터 중 하나로, SDCA(Stochastic Dual Coordinate Ascent) 알고리즘을 사용하여 이진 분류(Logistic Regression) 모델을 훈련할 때 반복 횟수를 제어합니다.

일반적으로, 최대 반복 횟수를 늘릴수록 모델의 성능은 개선될 수 있습니다. 하지만 이는 항상 참이지는 않습니다. 반복 횟수가 너무 작으면 모델이 충분히 수렴(converge)하지 않을 수 있으며, 반대로 너무 많으면 과적합(overfitting)이 발생할 수 있습니다.

따라서 하이퍼파라미터를 튜닝할 때에는 다음과 같은 접근 방법이 유용합니다:

초기 값: 먼저 작은 값으로 시작하여 모델을 테스트합니다. 일반적으로 알고리즘이 충분히 수렴하도록 하는데에 필요한 반복 횟수는 상대적으로 적습니다.
그리드 서치 또는 랜덤 서치: 하이퍼파라미터 튜닝을 위해 그리드 서치 또는 랜덤 서치를 수행하여 다양한 반복 횟수를 시도합니다. 이때, 교차 검증(cross-validation)을 통해 모델의 일반화 성능을 평가합니다.
학습 곡선 분석: 학습 곡선(learning curve)을 확인하여 반복 횟수가 증가함에 따라 모델의 성능이 어떻게 변하는지를 파악합니다. 초기에는 빠르게 성능이 향상되다가 일정 지점 이후에는 성능 향상이 미미하게 될 수 있습니다.
조기 종료: 반복 횟수를 크게 설정한 후, 조기 종료(early stopping) 방법을 적용하여 성능이 최대치에 도달한 시점에서 학습을 멈춥니다.

상황에 따라 최대 반복 횟수가 적절하게 설정되어야 합니다. 데이터의 크기, 특성, 모델의 복잡성 등 모델에 따라 최적의 하이퍼파라미터 값이 달라질 수 있습니다. 따라서 실제 실험을 통해 적절한 값을 찾는 것이 중요합니다.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

머신 러닝 모델 튜닝 #21

Uh oh!

{{title}}

Uh oh!

Replies: 3 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

머신 러닝 모델 튜닝 #21

Uh oh!

cyberprophet Jul 18, 2023 Maintainer

Replies: 3 comments · 1 reply

Uh oh!

cyberprophet Jul 18, 2023 Maintainer Author

The first attempt to find stocks that will rise more than 15% in a week

Uh oh!

cyberprophet Jul 19, 2023 Maintainer Author

Uh oh!

cyberprophet Jul 22, 2023 Maintainer Author

Uh oh!

cyberprophet Jul 27, 2023 Maintainer Author

cyberprophet
Jul 18, 2023
Maintainer

Replies: 3 comments 1 reply

cyberprophet
Jul 18, 2023
Maintainer Author

cyberprophet Jul 19, 2023
Maintainer Author

cyberprophet
Jul 22, 2023
Maintainer Author

cyberprophet
Jul 27, 2023
Maintainer Author