autogen/notebook/flaml_automl.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "source": [
    "Copyright (c) Microsoft Corporation. All rights reserved. \n",
    "\n",
    "Licensed under the MIT License.\n",
    "\n",
    "# AutoML with FLAML Library\n",
    "\n",
    "\n",
    "## 1. Introduction\n",
    "\n",
    "FLAML is a Python library (https://github.com/microsoft/FLAML) designed to automatically produce accurate machine learning models \n",
    "with low computational cost. It is fast and cheap. The simple and lightweight design makes it easy to use and extend, such as adding new learners. FLAML can \n",
    "- serve as an economical AutoML engine,\n",
    "- be used as a fast hyperparameter tuning tool, or \n",
    "- be embedded in self-tuning software that requires low latency & resource in repetitive\n",
    "   tuning tasks.\n",
    "\n",
    "In this notebook, we use one real data example (binary classification) to showcase how to use FLAML library.\n",
    "\n",
    "FLAML requires `Python>=3.6`. To run this notebook example, please install flaml with the `notebook` option:\n",
    "```bash\n",
    "pip install flaml[notebook]\n",
    "```"
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "source": [
    "!pip install flaml[notebook];\n",
    "# from v0.6.6, catboost is made an optional dependency to build conda package.\n",
    "# to install catboost, you can uncomment and run:\n",
    "# !pip install flaml[catboost]"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "## 2. Classification Example\n",
    "### Load data and preprocess\n",
    "\n",
    "Download [Airlines dataset](https://www.openml.org/d/1169) from OpenML. The task is to predict whether a given flight will be delayed, given the information of the scheduled departure."
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "source": [
    "from flaml.data import load_openml_dataset\n",
    "X_train, X_test, y_train, y_test = load_openml_dataset(dataset_id=1169, data_dir='./')"
   ],
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "load dataset from ./openml_ds1169.pkl\n",
      "Dataset name: airlines\n",
      "X_train.shape: (404537, 7), y_train.shape: (404537,);\n",
      "X_test.shape: (134846, 7), y_test.shape: (134846,)\n"
     ]
    }
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "subslide"
    },
    "tags": []
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "### Run FLAML\n",
    "In the FLAML automl run configuration, users can specify the task type, time budget, error metric, learner list, whether to subsample, resampling strategy type, and so on. All these arguments have default values which will be used if users do not provide them. For example, the default ML learners of FLAML are `['lgbm', 'xgboost', 'catboost', 'rf', 'extra_tree', 'lrl1']`. "
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "source": [
    "''' import AutoML class from flaml package '''\n",
    "from flaml import AutoML\n",
    "automl = AutoML()"
   ],
   "outputs": [],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "source": [
    "settings = {\n",
    "    \"time_budget\": 240,  # total running time in seconds\n",
    "    \"metric\": 'accuracy',  # can be: 'r2', 'rmse', 'mae', 'mse', 'accuracy', 'roc_auc', 'roc_auc_ovr',\n",
    "                           # 'roc_auc_ovo', 'log_loss', 'mape', 'f1', 'ap', 'ndcg', 'micro_f1', 'macro_f1'\n",
    "    \"task\": 'classification',  # task type\n",
    "    \"log_file_name\": 'airlines_experiment.log',  # flaml log file\n",
    "    \"seed\": 7654321,    # random seed\n",
    "}"
   ],
   "outputs": [],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "source": [
    "'''The main flaml automl API'''\n",
    "automl.fit(X_train=X_train, y_train=y_train, **settings)"
   ],
   "outputs": [
    {
     "output_type": "stream",
     "name": "stderr",
     "text": [
      "[flaml.automl: 10-08 15:12:49] {1458} INFO - Data split method: stratified\n",
      "[flaml.automl: 10-08 15:12:49] {1462} INFO - Evaluation method: holdout\n",
      "[flaml.automl: 10-08 15:12:49] {1510} INFO - Minimizing error metric: 1-accuracy\n",
      "[flaml.automl: 10-08 15:12:49] {1547} INFO - List of ML learners in AutoML Run: ['lgbm', 'rf', 'xgboost', 'extra_tree', 'lrl1']\n",
      "[flaml.automl: 10-08 15:12:49] {1777} INFO - iteration 0, current learner lgbm\n",
      "[flaml.automl: 10-08 15:12:50] {1894} INFO - Estimated sufficient time budget=318171s. Estimated necessary time budget=5298s.\n",
      "[flaml.automl: 10-08 15:12:50] {1966} INFO -  at 1.8s,\testimator lgbm's best error=0.3777,\tbest estimator lgbm's best error=0.3777\n",
      "[flaml.automl: 10-08 15:12:50] {1777} INFO - iteration 1, current learner lgbm\n",
      "[flaml.automl: 10-08 15:12:51] {1966} INFO -  at 2.4s,\testimator lgbm's best error=0.3759,\tbest estimator lgbm's best error=0.3759\n",
      "[flaml.automl: 10-08 15:12:51] {1777} INFO - iteration 2, current learner lgbm\n",
      "[flaml.automl: 10-08 15:12:53] {1966} INFO -  at 4.7s,\testimator lgbm's best error=0.3759,\tbest estimator lgbm's best error=0.3759\n",
      "[flaml.automl: 10-08 15:12:53] {1777} INFO - iteration 3, current learner xgboost\n",
      "[flaml.automl: 10-08 15:12:53] {1966} INFO -  at 5.0s,\testimator xgboost's best error=0.3787,\tbest estimator lgbm's best error=0.3759\n",
      "[flaml.automl: 10-08 15:12:53] {1777} INFO - iteration 4, current learner lgbm\n",
      "[flaml.automl: 10-08 15:12:54] {1966} INFO -  at 5.1s,\testimator lgbm's best error=0.3644,\tbest estimator lgbm's best error=0.3644\n",
      "[flaml.automl: 10-08 15:12:54] {1777} INFO - iteration 5, current learner lgbm\n",
      "[flaml.automl: 10-08 15:12:54] {1966} INFO -  at 5.3s,\testimator lgbm's best error=0.3588,\tbest estimator lgbm's best error=0.3588\n",
      "[flaml.automl: 10-08 15:12:54] {1777} INFO - iteration 6, current learner lgbm\n",
      "[flaml.automl: 10-08 15:12:54] {1966} INFO -  at 5.4s,\testimator lgbm's best error=0.3588,\tbest estimator lgbm's best error=0.3588\n",
      "[flaml.automl: 10-08 15:12:54] {1777} INFO - iteration 7, current learner lgbm\n",
      "[flaml.automl: 10-08 15:12:54] {1966} INFO -  at 5.9s,\testimator lgbm's best error=0.3555,\tbest estimator lgbm's best error=0.3555\n",
      "[flaml.automl: 10-08 15:12:54] {1777} INFO - iteration 8, current learner lgbm\n",
      "[flaml.automl: 10-08 15:12:55] {1966} INFO -  at 6.2s,\testimator lgbm's best error=0.3555,\tbest estimator lgbm's best error=0.3555\n",
      "[flaml.automl: 10-08 15:12:55] {1777} INFO - iteration 9, current learner xgboost\n",
      "[flaml.automl: 10-08 15:12:55] {1966} INFO -  at 6.3s,\testimator xgboost's best error=0.3649,\tbest estimator lgbm's best error=0.3555\n",
      "[flaml.automl: 10-08 15:12:55] {1777} INFO - iteration 10, current learner xgboost\n",
      "[flaml.automl: 10-08 15:12:55] {1966} INFO -  at 6.4s,\testimator xgboost's best error=0.3649,\tbest estimator lgbm's best error=0.3555\n",
      "[flaml.automl: 10-08 15:12:55] {1777} INFO - iteration 11, current learner xgboost\n",
      "[flaml.automl: 10-08 15:12:55] {1966} INFO -  at 6.6s,\testimator xgboost's best error=0.3649,\tbest estimator lgbm's best error=0.3555\n",
      "[flaml.automl: 10-08 15:12:55] {1777} INFO - iteration 12, current learner lgbm\n",
      "[flaml.automl: 10-08 15:12:56] {1966} INFO -  at 7.7s,\testimator lgbm's best error=0.3555,\tbest estimator lgbm's best error=0.3555\n",
      "[flaml.automl: 10-08 15:12:56] {1777} INFO - iteration 13, current learner xgboost\n",
      "[flaml.automl: 10-08 15:12:56] {1966} INFO -  at 7.8s,\testimator xgboost's best error=0.3629,\tbest estimator lgbm's best error=0.3555\n",
      "[flaml.automl: 10-08 15:12:56] {1777} INFO - iteration 14, current learner lgbm\n",
      "[flaml.automl: 10-08 15:12:58] {1966} INFO -  at 9.2s,\testimator lgbm's best error=0.3555,\tbest estimator lgbm's best error=0.3555\n",
      "[flaml.automl: 10-08 15:12:58] {1777} INFO - iteration 15, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:12:58] {1966} INFO -  at 9.4s,\testimator extra_tree's best error=0.3773,\tbest estimator lgbm's best error=0.3555\n",
      "[flaml.automl: 10-08 15:12:58] {1777} INFO - iteration 16, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:12:58] {1966} INFO -  at 9.5s,\testimator extra_tree's best error=0.3757,\tbest estimator lgbm's best error=0.3555\n",
      "[flaml.automl: 10-08 15:12:58] {1777} INFO - iteration 17, current learner rf\n",
      "[flaml.automl: 10-08 15:12:58] {1966} INFO -  at 9.7s,\testimator rf's best error=0.3765,\tbest estimator lgbm's best error=0.3555\n",
      "[flaml.automl: 10-08 15:12:58] {1777} INFO - iteration 18, current learner lgbm\n",
      "[flaml.automl: 10-08 15:12:59] {1966} INFO -  at 10.7s,\testimator lgbm's best error=0.3542,\tbest estimator lgbm's best error=0.3542\n",
      "[flaml.automl: 10-08 15:12:59] {1777} INFO - iteration 19, current learner rf\n",
      "[flaml.automl: 10-08 15:12:59] {1966} INFO -  at 10.9s,\testimator rf's best error=0.3724,\tbest estimator lgbm's best error=0.3542\n",
      "[flaml.automl: 10-08 15:12:59] {1777} INFO - iteration 20, current learner rf\n",
      "[flaml.automl: 10-08 15:13:00] {1966} INFO -  at 11.1s,\testimator rf's best error=0.3724,\tbest estimator lgbm's best error=0.3542\n",
      "[flaml.automl: 10-08 15:13:00] {1777} INFO - iteration 21, current learner xgboost\n",
      "[flaml.automl: 10-08 15:13:00] {1966} INFO -  at 11.2s,\testimator xgboost's best error=0.3629,\tbest estimator lgbm's best error=0.3542\n",
      "[flaml.automl: 10-08 15:13:00] {1777} INFO - iteration 22, current learner lgbm\n",
      "[flaml.automl: 10-08 15:13:02] {1966} INFO -  at 13.2s,\testimator lgbm's best error=0.3507,\tbest estimator lgbm's best error=0.3507\n",
      "[flaml.automl: 10-08 15:13:02] {1777} INFO - iteration 23, current learner lgbm\n",
      "[flaml.automl: 10-08 15:13:03] {1966} INFO -  at 14.1s,\testimator lgbm's best error=0.3507,\tbest estimator lgbm's best error=0.3507\n",
      "[flaml.automl: 10-08 15:13:03] {1777} INFO - iteration 24, current learner xgboost\n",
      "[flaml.automl: 10-08 15:13:03] {1966} INFO -  at 14.2s,\testimator xgboost's best error=0.3612,\tbest estimator lgbm's best error=0.3507\n",
      "[flaml.automl: 10-08 15:13:03] {1777} INFO - iteration 25, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:13:03] {1966} INFO -  at 14.4s,\testimator extra_tree's best error=0.3757,\tbest estimator lgbm's best error=0.3507\n",
      "[flaml.automl: 10-08 15:13:03] {1777} INFO - iteration 26, current learner lgbm\n",
      "[flaml.automl: 10-08 15:13:07] {1966} INFO -  at 19.0s,\testimator lgbm's best error=0.3507,\tbest estimator lgbm's best error=0.3507\n",
      "[flaml.automl: 10-08 15:13:07] {1777} INFO - iteration 27, current learner xgboost\n",
      "[flaml.automl: 10-08 15:13:08] {1966} INFO -  at 19.1s,\testimator xgboost's best error=0.3612,\tbest estimator lgbm's best error=0.3507\n",
      "[flaml.automl: 10-08 15:13:08] {1777} INFO - iteration 28, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:13:08] {1966} INFO -  at 19.3s,\testimator extra_tree's best error=0.3757,\tbest estimator lgbm's best error=0.3507\n",
      "[flaml.automl: 10-08 15:13:08] {1777} INFO - iteration 29, current learner xgboost\n",
      "[flaml.automl: 10-08 15:13:08] {1966} INFO -  at 19.5s,\testimator xgboost's best error=0.3612,\tbest estimator lgbm's best error=0.3507\n",
      "[flaml.automl: 10-08 15:13:08] {1777} INFO - iteration 30, current learner lgbm\n",
      "[flaml.automl: 10-08 15:13:09] {1966} INFO -  at 20.9s,\testimator lgbm's best error=0.3507,\tbest estimator lgbm's best error=0.3507\n",
      "[flaml.automl: 10-08 15:13:09] {1777} INFO - iteration 31, current learner lgbm\n",
      "[flaml.automl: 10-08 15:13:11] {1966} INFO -  at 22.5s,\testimator lgbm's best error=0.3507,\tbest estimator lgbm's best error=0.3507\n",
      "[flaml.automl: 10-08 15:13:11] {1777} INFO - iteration 32, current learner lgbm\n",
      "[flaml.automl: 10-08 15:13:23] {1966} INFO -  at 34.3s,\testimator lgbm's best error=0.3404,\tbest estimator lgbm's best error=0.3404\n",
      "[flaml.automl: 10-08 15:13:23] {1777} INFO - iteration 33, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:13:23] {1966} INFO -  at 34.5s,\testimator extra_tree's best error=0.3757,\tbest estimator lgbm's best error=0.3404\n",
      "[flaml.automl: 10-08 15:13:23] {1777} INFO - iteration 34, current learner lgbm\n",
      "[flaml.automl: 10-08 15:13:44] {1966} INFO -  at 55.1s,\testimator lgbm's best error=0.3343,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:44] {1777} INFO - iteration 35, current learner rf\n",
      "[flaml.automl: 10-08 15:13:44] {1966} INFO -  at 55.2s,\testimator rf's best error=0.3724,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:44] {1777} INFO - iteration 36, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:13:44] {1966} INFO -  at 55.4s,\testimator extra_tree's best error=0.3757,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:44] {1777} INFO - iteration 37, current learner rf\n",
      "[flaml.automl: 10-08 15:13:44] {1966} INFO -  at 55.5s,\testimator rf's best error=0.3724,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:44] {1777} INFO - iteration 38, current learner xgboost\n",
      "[flaml.automl: 10-08 15:13:44] {1966} INFO -  at 55.7s,\testimator xgboost's best error=0.3612,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:44] {1777} INFO - iteration 39, current learner rf\n",
      "[flaml.automl: 10-08 15:13:44] {1966} INFO -  at 56.0s,\testimator rf's best error=0.3719,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:44] {1777} INFO - iteration 40, current learner xgboost\n",
      "[flaml.automl: 10-08 15:13:45] {1966} INFO -  at 56.3s,\testimator xgboost's best error=0.3600,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:45] {1777} INFO - iteration 41, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:13:45] {1966} INFO -  at 56.5s,\testimator extra_tree's best error=0.3757,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:45] {1777} INFO - iteration 42, current learner lgbm\n",
      "[flaml.automl: 10-08 15:13:56] {1966} INFO -  at 67.1s,\testimator lgbm's best error=0.3343,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:56] {1777} INFO - iteration 43, current learner xgboost\n",
      "[flaml.automl: 10-08 15:13:56] {1966} INFO -  at 67.4s,\testimator xgboost's best error=0.3558,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:56] {1777} INFO - iteration 44, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:13:56] {1966} INFO -  at 67.5s,\testimator extra_tree's best error=0.3757,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:56] {1777} INFO - iteration 45, current learner xgboost\n",
      "[flaml.automl: 10-08 15:13:56] {1966} INFO -  at 67.8s,\testimator xgboost's best error=0.3558,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:56] {1777} INFO - iteration 46, current learner xgboost\n",
      "[flaml.automl: 10-08 15:13:57] {1966} INFO -  at 68.3s,\testimator xgboost's best error=0.3558,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:57] {1777} INFO - iteration 47, current learner xgboost\n",
      "[flaml.automl: 10-08 15:13:57] {1966} INFO -  at 68.6s,\testimator xgboost's best error=0.3558,\tbest estimator lgbm's best error=0.3343\n",
      "[flaml.automl: 10-08 15:13:57] {1777} INFO - iteration 48, current learner lgbm\n",
      "[flaml.automl: 10-08 15:14:08] {1966} INFO -  at 79.8s,\testimator lgbm's best error=0.3296,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:14:08] {1777} INFO - iteration 49, current learner xgboost\n",
      "[flaml.automl: 10-08 15:14:11] {1966} INFO -  at 82.2s,\testimator xgboost's best error=0.3544,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:14:11] {1777} INFO - iteration 50, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:14:11] {1966} INFO -  at 82.4s,\testimator extra_tree's best error=0.3753,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:14:11] {1777} INFO - iteration 51, current learner lgbm\n",
      "[flaml.automl: 10-08 15:14:34] {1966} INFO -  at 105.2s,\testimator lgbm's best error=0.3296,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:14:34] {1777} INFO - iteration 52, current learner lgbm\n",
      "[flaml.automl: 10-08 15:14:43] {1966} INFO -  at 114.1s,\testimator lgbm's best error=0.3296,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:14:43] {1777} INFO - iteration 53, current learner lgbm\n",
      "[flaml.automl: 10-08 15:15:04] {1966} INFO -  at 135.7s,\testimator lgbm's best error=0.3296,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:15:04] {1777} INFO - iteration 54, current learner lgbm\n",
      "[flaml.automl: 10-08 15:15:09] {1966} INFO -  at 140.0s,\testimator lgbm's best error=0.3296,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:15:09] {1777} INFO - iteration 55, current learner xgboost\n",
      "[flaml.automl: 10-08 15:15:12] {1966} INFO -  at 143.5s,\testimator xgboost's best error=0.3494,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:15:12] {1777} INFO - iteration 56, current learner lgbm\n",
      "[flaml.automl: 10-08 15:16:03] {1966} INFO -  at 194.7s,\testimator lgbm's best error=0.3296,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:03] {1777} INFO - iteration 57, current learner rf\n",
      "[flaml.automl: 10-08 15:16:03] {1966} INFO -  at 194.9s,\testimator rf's best error=0.3717,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:03] {1777} INFO - iteration 58, current learner xgboost\n",
      "[flaml.automl: 10-08 15:16:05] {1966} INFO -  at 196.9s,\testimator xgboost's best error=0.3494,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:05] {1777} INFO - iteration 59, current learner lgbm\n",
      "[flaml.automl: 10-08 15:16:45] {1966} INFO -  at 236.4s,\testimator lgbm's best error=0.3296,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:45] {1777} INFO - iteration 60, current learner xgboost\n",
      "[flaml.automl: 10-08 15:16:47] {1966} INFO -  at 238.8s,\testimator xgboost's best error=0.3494,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:47] {1777} INFO - iteration 61, current learner rf\n",
      "[flaml.automl: 10-08 15:16:47] {1966} INFO -  at 238.8s,\testimator rf's best error=0.3717,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:47] {1777} INFO - iteration 62, current learner rf\n",
      "[flaml.automl: 10-08 15:16:47] {1966} INFO -  at 238.9s,\testimator rf's best error=0.3717,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:47] {1777} INFO - iteration 63, current learner lrl1\n",
      "/home/dmx/miniconda2/envs/test/lib/python3.8/site-packages/sklearn/linear_model/_sag.py:328: ConvergenceWarning: The max_iter was reached which means the coef_ did not converge\n",
      "  warnings.warn(\"The max_iter was reached which means \"\n",
      "[flaml.automl: 10-08 15:16:48] {1966} INFO -  at 239.2s,\testimator lrl1's best error=0.4339,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:48] {1777} INFO - iteration 64, current learner lrl1\n",
      "/home/dmx/miniconda2/envs/test/lib/python3.8/site-packages/sklearn/linear_model/_sag.py:328: ConvergenceWarning: The max_iter was reached which means the coef_ did not converge\n",
      "  warnings.warn(\"The max_iter was reached which means \"\n",
      "[flaml.automl: 10-08 15:16:48] {1966} INFO -  at 239.5s,\testimator lrl1's best error=0.4339,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:48] {1777} INFO - iteration 65, current learner rf\n",
      "[flaml.automl: 10-08 15:16:48] {1966} INFO -  at 239.6s,\testimator rf's best error=0.3717,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:48] {1777} INFO - iteration 66, current learner rf\n",
      "[flaml.automl: 10-08 15:16:48] {1966} INFO -  at 239.6s,\testimator rf's best error=0.3717,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:48] {1777} INFO - iteration 67, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:16:48] {1966} INFO -  at 239.7s,\testimator extra_tree's best error=0.3753,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:48] {1777} INFO - iteration 68, current learner rf\n",
      "[flaml.automl: 10-08 15:16:48] {1966} INFO -  at 239.8s,\testimator rf's best error=0.3717,\tbest estimator lgbm's best error=0.3296\n",
      "[flaml.automl: 10-08 15:16:48] {2073} INFO - selected model: LGBMClassifier(colsample_bytree=0.7263265270618353,\n",
      "               learning_rate=0.19240592731562936, max_bin=511,\n",
      "               min_child_samples=101, n_estimators=334, num_leaves=50,\n",
      "               reg_alpha=0.042474252908075376, reg_lambda=0.44574701224719,\n",
      "               verbose=-1)\n",
      "[flaml.automl: 10-08 15:16:59] {2136} INFO - retrain lgbm for 10.5s\n",
      "[flaml.automl: 10-08 15:16:59] {2142} INFO - retrained model: LGBMClassifier(colsample_bytree=0.7263265270618353,\n",
      "               learning_rate=0.19240592731562936, max_bin=511,\n",
      "               min_child_samples=101, n_estimators=334, num_leaves=50,\n",
      "               reg_alpha=0.042474252908075376, reg_lambda=0.44574701224719,\n",
      "               verbose=-1)\n",
      "[flaml.automl: 10-08 15:16:59] {1571} INFO - fit succeeded\n",
      "[flaml.automl: 10-08 15:16:59] {1572} INFO - Time taken to find the best model: 79.82886719703674\n"
     ]
    }
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    },
    "tags": [
     "outputPrepend"
    ]
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "### Best model and metric"
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "source": [
    "''' retrieve best config and best learner'''\n",
    "print('Best ML leaner:', automl.best_estimator)\n",
    "print('Best hyperparmeter config:', automl.best_config)\n",
    "print('Best accuracy on validation data: {0:.4g}'.format(1-automl.best_loss))\n",
    "print('Training duration of best run: {0:.4g} s'.format(automl.best_config_train_time))"
   ],
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "Best ML leaner: lgbm\n",
      "Best hyperparmeter config: {'n_estimators': 334, 'num_leaves': 50, 'min_child_samples': 101, 'learning_rate': 0.19240592731562936, 'log_max_bin': 9, 'colsample_bytree': 0.7263265270618353, 'reg_alpha': 0.042474252908075376, 'reg_lambda': 0.44574701224719, 'FLAML_sample_size': 364083}\n",
      "Best accuracy on validation data: 0.6704\n",
      "Training duration of best run: 11.24 s\n"
     ]
    }
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    },
    "tags": []
   }
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "source": [
    "automl.model.estimator"
   ],
   "outputs": [
    {
     "output_type": "execute_result",
     "data": {
      "text/plain": [
       "LGBMClassifier(colsample_bytree=0.7263265270618353,\n",
       "               learning_rate=0.19240592731562936, max_bin=511,\n",
       "               min_child_samples=101, n_estimators=334, num_leaves=50,\n",
       "               reg_alpha=0.042474252908075376, reg_lambda=0.44574701224719,\n",
       "               verbose=-1)"
      ]
     },
     "metadata": {},
     "execution_count": 6
    }
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "source": [
    "''' pickle and save the automl object '''\n",
    "import pickle\n",
    "with open('automl.pkl', 'wb') as f:\n",
    "    pickle.dump(automl, f, pickle.HIGHEST_PROTOCOL)"
   ],
   "outputs": [],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "source": [
    "''' compute predictions of testing dataset ''' \n",
    "y_pred = automl.predict(X_test)\n",
    "print('Predicted labels', y_pred)\n",
    "print('True labels', y_test)\n",
    "y_pred_proba = automl.predict_proba(X_test)[:,1]"
   ],
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "Predicted labels ['1' '0' '1' ... '1' '0' '0']\n",
      "True labels 118331    0\n",
      "328182    0\n",
      "335454    0\n",
      "520591    1\n",
      "344651    0\n",
      "         ..\n",
      "367080    0\n",
      "203510    1\n",
      "254894    0\n",
      "296512    1\n",
      "362444    0\n",
      "Name: Delay, Length: 134846, dtype: category\n",
      "Categories (2, object): ['0' < '1']\n"
     ]
    }
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    },
    "tags": []
   }
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "source": [
    "''' compute different metric values on testing dataset'''\n",
    "from flaml.ml import sklearn_metric_loss_score\n",
    "print('accuracy', '=', 1 - sklearn_metric_loss_score('accuracy', y_pred, y_test))\n",
    "print('roc_auc', '=', 1 - sklearn_metric_loss_score('roc_auc', y_pred_proba, y_test))\n",
    "print('log_loss', '=', sklearn_metric_loss_score('log_loss', y_pred_proba, y_test))"
   ],
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "accuracy = 0.6713287750470908\n",
      "roc_auc = 0.7249878990284184\n",
      "log_loss = 0.6035815508574605\n"
     ]
    }
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    },
    "tags": []
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "See Section 4 for an accuracy comparison with default LightGBM and XGBoost.\n",
    "\n",
    "### Log history"
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "source": [
    "from flaml.data import get_output_from_log\n",
    "time_history, best_valid_loss_history, valid_loss_history, config_history, metric_history = \\\n",
    "    get_output_from_log(filename=settings['log_file_name'], time_budget=240)\n",
    "for config in config_history:\n",
    "    print(config)"
   ],
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "{'Current Learner': 'lgbm', 'Current Sample': 10000, 'Current Hyper-parameters': {'n_estimators': 4, 'num_leaves': 4, 'min_child_samples': 20, 'learning_rate': 0.09999999999999995, 'log_max_bin': 8, 'colsample_bytree': 1.0, 'reg_alpha': 0.0009765625, 'reg_lambda': 1.0, 'FLAML_sample_size': 10000}, 'Best Learner': 'lgbm', 'Best Hyper-parameters': {'n_estimators': 4, 'num_leaves': 4, 'min_child_samples': 20, 'learning_rate': 0.09999999999999995, 'log_max_bin': 8, 'colsample_bytree': 1.0, 'reg_alpha': 0.0009765625, 'reg_lambda': 1.0, 'FLAML_sample_size': 10000}}\n",
      "{'Current Learner': 'lgbm', 'Current Sample': 10000, 'Current Hyper-parameters': {'n_estimators': 4, 'num_leaves': 14, 'min_child_samples': 15, 'learning_rate': 0.22841390623808822, 'log_max_bin': 9, 'colsample_bytree': 1.0, 'reg_alpha': 0.0014700173967242716, 'reg_lambda': 7.624911621832711, 'FLAML_sample_size': 10000}, 'Best Learner': 'lgbm', 'Best Hyper-parameters': {'n_estimators': 4, 'num_leaves': 14, 'min_child_samples': 15, 'learning_rate': 0.22841390623808822, 'log_max_bin': 9, 'colsample_bytree': 1.0, 'reg_alpha': 0.0014700173967242716, 'reg_lambda': 7.624911621832711, 'FLAML_sample_size': 10000}}\n",
      "{'Current Learner': 'lgbm', 'Current Sample': 10000, 'Current Hyper-parameters': {'n_estimators': 4, 'num_leaves': 25, 'min_child_samples': 12, 'learning_rate': 0.5082200481556802, 'log_max_bin': 8, 'colsample_bytree': 0.9696263001275751, 'reg_alpha': 0.0028107036379524425, 'reg_lambda': 3.716898117989413, 'FLAML_sample_size': 10000}, 'Best Learner': 'lgbm', 'Best Hyper-parameters': {'n_estimators': 4, 'num_leaves': 25, 'min_child_samples': 12, 'learning_rate': 0.5082200481556802, 'log_max_bin': 8, 'colsample_bytree': 0.9696263001275751, 'reg_alpha': 0.0028107036379524425, 'reg_lambda': 3.716898117989413, 'FLAML_sample_size': 10000}}\n",
      "{'Current Learner': 'lgbm', 'Current Sample': 10000, 'Current Hyper-parameters': {'n_estimators': 23, 'num_leaves': 14, 'min_child_samples': 15, 'learning_rate': 0.22841390623808822, 'log_max_bin': 9, 'colsample_bytree': 1.0, 'reg_alpha': 0.0014700173967242718, 'reg_lambda': 7.624911621832699, 'FLAML_sample_size': 10000}, 'Best Learner': 'lgbm', 'Best Hyper-parameters': {'n_estimators': 23, 'num_leaves': 14, 'min_child_samples': 15, 'learning_rate': 0.22841390623808822, 'log_max_bin': 9, 'colsample_bytree': 1.0, 'reg_alpha': 0.0014700173967242718, 'reg_lambda': 7.624911621832699, 'FLAML_sample_size': 10000}}\n",
      "{'Current Learner': 'lgbm', 'Current Sample': 10000, 'Current Hyper-parameters': {'n_estimators': 101, 'num_leaves': 12, 'min_child_samples': 24, 'learning_rate': 0.07647794276357095, 'log_max_bin': 10, 'colsample_bytree': 1.0, 'reg_alpha': 0.001749539645587163, 'reg_lambda': 4.373760956394571, 'FLAML_sample_size': 10000}, 'Best Learner': 'lgbm', 'Best Hyper-parameters': {'n_estimators': 101, 'num_leaves': 12, 'min_child_samples': 24, 'learning_rate': 0.07647794276357095, 'log_max_bin': 10, 'colsample_bytree': 1.0, 'reg_alpha': 0.001749539645587163, 'reg_lambda': 4.373760956394571, 'FLAML_sample_size': 10000}}\n",
      "{'Current Learner': 'lgbm', 'Current Sample': 40000, 'Current Hyper-parameters': {'n_estimators': 101, 'num_leaves': 12, 'min_child_samples': 24, 'learning_rate': 0.07647794276357095, 'log_max_bin': 10, 'colsample_bytree': 1.0, 'reg_alpha': 0.001749539645587163, 'reg_lambda': 4.373760956394571, 'FLAML_sample_size': 40000}, 'Best Learner': 'lgbm', 'Best Hyper-parameters': {'n_estimators': 101, 'num_leaves': 12, 'min_child_samples': 24, 'learning_rate': 0.07647794276357095, 'log_max_bin': 10, 'colsample_bytree': 1.0, 'reg_alpha': 0.001749539645587163, 'reg_lambda': 4.373760956394571, 'FLAML_sample_size': 40000}}\n",
      "{'Current Learner': 'lgbm', 'Current Sample': 40000, 'Current Hyper-parameters': {'n_estimators': 361, 'num_leaves': 11, 'min_child_samples': 32, 'learning_rate': 0.13528717598813866, 'log_max_bin': 9, 'colsample_bytree': 0.9851977789068981, 'reg_alpha': 0.0038372002422749616, 'reg_lambda': 0.25113531892556773, 'FLAML_sample_size': 40000}, 'Best Learner': 'lgbm', 'Best Hyper-parameters': {'n_estimators': 361, 'num_leaves': 11, 'min_child_samples': 32, 'learning_rate': 0.13528717598813866, 'log_max_bin': 9, 'colsample_bytree': 0.9851977789068981, 'reg_alpha': 0.0038372002422749616, 'reg_lambda': 0.25113531892556773, 'FLAML_sample_size': 40000}}\n",
      "{'Current Learner': 'lgbm', 'Current Sample': 364083, 'Current Hyper-parameters': {'n_estimators': 361, 'num_leaves': 11, 'min_child_samples': 32, 'learning_rate': 0.13528717598813866, 'log_max_bin': 9, 'colsample_bytree': 0.9851977789068981, 'reg_alpha': 0.0038372002422749616, 'reg_lambda': 0.25113531892556773, 'FLAML_sample_size': 364083}, 'Best Learner': 'lgbm', 'Best Hyper-parameters': {'n_estimators': 361, 'num_leaves': 11, 'min_child_samples': 32, 'learning_rate': 0.13528717598813866, 'log_max_bin': 9, 'colsample_bytree': 0.9851977789068981, 'reg_alpha': 0.0038372002422749616, 'reg_lambda': 0.25113531892556773, 'FLAML_sample_size': 364083}}\n",
      "{'Current Learner': 'lgbm', 'Current Sample': 364083, 'Current Hyper-parameters': {'n_estimators': 654, 'num_leaves': 27, 'min_child_samples': 61, 'learning_rate': 0.0705835177602005, 'log_max_bin': 10, 'colsample_bytree': 0.8629551479851468, 'reg_alpha': 0.016562972790870267, 'reg_lambda': 0.25883390536609663, 'FLAML_sample_size': 364083}, 'Best Learner': 'lgbm', 'Best Hyper-parameters': {'n_estimators': 654, 'num_leaves': 27, 'min_child_samples': 61, 'learning_rate': 0.0705835177602005, 'log_max_bin': 10, 'colsample_bytree': 0.8629551479851468, 'reg_alpha': 0.016562972790870267, 'reg_lambda': 0.25883390536609663, 'FLAML_sample_size': 364083}}\n",
      "{'Current Learner': 'lgbm', 'Current Sample': 364083, 'Current Hyper-parameters': {'n_estimators': 334, 'num_leaves': 50, 'min_child_samples': 101, 'learning_rate': 0.19240592731562936, 'log_max_bin': 9, 'colsample_bytree': 0.7263265270618353, 'reg_alpha': 0.042474252908075376, 'reg_lambda': 0.44574701224719, 'FLAML_sample_size': 364083}, 'Best Learner': 'lgbm', 'Best Hyper-parameters': {'n_estimators': 334, 'num_leaves': 50, 'min_child_samples': 101, 'learning_rate': 0.19240592731562936, 'log_max_bin': 9, 'colsample_bytree': 0.7263265270618353, 'reg_alpha': 0.042474252908075376, 'reg_lambda': 0.44574701224719, 'FLAML_sample_size': 364083}}\n"
     ]
    }
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "subslide"
    },
    "tags": []
   }
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "source": [
    "import matplotlib.pyplot as plt\n",
    "import numpy as np\n",
    "\n",
    "plt.title('Learning Curve')\n",
    "plt.xlabel('Wall Clock Time (s)')\n",
    "plt.ylabel('Validation Accuracy')\n",
    "plt.scatter(time_history, 1 - np.array(valid_loss_history))\n",
    "plt.step(time_history, 1 - np.array(best_valid_loss_history), where='post')\n",
    "plt.show()"
   ],
   "outputs": [
    {
     "output_type": "display_data",
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAYgAAAEWCAYAAAB8LwAVAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4yLjAsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy8GearUAAAgAElEQVR4nO3dfZhdVXn38e+PIcAIhgETaDIBgg9JNBpNcEQRUaDSRB4lkSKCfUFsidaXamlDSa2UYil4Re2jV1NtsEqxgkAaxoiRkQJCRSCZEMzL4GAICDNBE0JGEEeSTO7nj71P2DnZMzkJs+ecmfP7XNe55uy1197nnjkzc5+11t5rKSIwMzMrd0C1AzAzs9rkBGFmZrmcIMzMLJcThJmZ5XKCMDOzXE4QZmaWywnCbD9IOlVSZ7XjMCuSE4QNO5KekPSuasYQEf8bEVOKOr+kmZLulfS8pM2S7pF0dlGvZ5bHCcIsh6SGKr72ucAtwPXABOBo4HLgvftxLkny37ntF//i2Igh6QBJl0l6TNIWSTdLOjKz/xZJv5T06/TT+esy+66T9FVJyyS9AJyetlT+RtLq9JibJB2S1j9NUlfm+H7rpvsvlfS0pI2S/lxSSDoh53sQ8CXgcxHx9Yj4dUTsjIh7IuLitM4Vkv4rc8zE9HwHpts/knSVpPuA3wLzJLWXvc5fSVqaPj9Y0hckPSnpV5K+JqnxZb4dNgI4QdhI8klgDvBOYDywFViY2f8DYBJwFPAQ8O2y4z8IXAW8EvhxWnYeMAs4HngD8KEBXj+3rqRZwCXAu4ATgNMGOMcU4Bhg8QB1KvEnwFyS7+VrwBRJkzL7PwjckD6/BpgMTE/jayZpsVidc4KwkeSjwGcioisiXgSuAM4tfbKOiG9ExPOZfW+UdHjm+O9GxH3pJ/bfpWVfiYiNEfEs8D2Sf6L96a/uecA3I2JdRPw2fe3+vCr9+nSl33Q/rktfb0dE/Br4LnABQJooXgMsTVssc4G/iohnI+J54J+B81/m69sI4ARhI8lxwK2SeiT1AI8AfcDRkhokXZN2Pz0HPJEeMyZz/FM55/xl5vlvgcMGeP3+6o4vO3fe65RsSb+OG6BOJcpf4wbSBEHSemhNk9VY4BXAyszP7fa03OqcE4SNJE8B746IpszjkIjoJvmnOJukm+dwYGJ6jDLHFzW18dMkg80lxwxQt5Pk+/jDAeq8QPJPveT3cuqUfy93AGMlTSdJFKXupWeAXuB1mZ/Z4RExUCK0OuEEYcPVKEmHZB4HkvS1XyXpOABJYyXNTuu/EniR5BP6K0i6UYbKzcBFkl4r6RXAZ/urGMn8+5cAn5V0kaTR6eD72yUtSqs9DLxD0rFpF9n8vQUQEdtJroxaABxJkjCIiJ3AtcC/SDoKQFKzpJn7/d3aiOEEYcPVMpJPvqXHFcCXgaXADyU9DzwAvCWtfz3wC6Ab6Ej3DYmI+AHwFeBuYH3mtV/sp/5i4APAh4GNwK+AfyIZRyAi7gBuAlYDK4HbKgzlBpIW1C0RsSNT/reluNLut/8hGSy3OicvGGQ2tCS9FlgLHFz2j9qsprgFYTYEJL0vvd/gCODzwPecHKzWOUGYDY2PAJuAx0iurPqL6oZjtnfuYjIzs1xuQZiZWa4Dqx3AYBkzZkxMnDix2mGYmQ0rK1eufCYicm+MHDEJYuLEibS3t++9opmZ7SLpF/3tcxeTmZnlcoIwM7NcThBmZpbLCcLMzHI5QZiZWa4RcxWTmVm9aV3VzYK2Tjb29DK+qZF5M6cwZ0bzoJ3fCcLMbBhqXdXN/CVr6N3eB0B3Ty/zl6wBGLQkUWgXk6RZkjolrZd0WT91zpPUIWmdpBvSstMlPZx5/E7SnCJjNTMbTha0de5KDiW92/tY0NY5aK9RWAtCUgPJgvFnAl3ACklLI6IjU2cSyWInp0TE1tKCJRFxN+l6vpKOJJmr/odFxWpmNtxs7Ondp/L9UWQL4iRgfURsiIhtwHdIlnzMuhhYGBFbASJiU855zgV+kK6fa2ZmwPimxn0q3x9FJohmdl84vSsty5oMTJZ0n6QHJM3KOc/5wI15LyBprqR2Se2bN28elKDNzIaDeTOn0DiqYbeyxlENzJs5eIsBVvsy1wOBScBpJAupXyupqbRT0jhgGtCWd3BELIqIlohoGTs2d64pM7MRac6MZq4+ZxoHNST/xpubGrn6nGnD5iqmbuCYzPaEtCyrC3gwXVD9cUmPkiSMFen+84Bb0/1mZpYxZ0YzNy5/EoCbPnLyoJ+/yBbECmCSpOMlHUTSVbS0rE4rSesBSWNIupw2ZPZfQD/dS2ZmVqzCEkS63u4nSLqHHgFujoh1kq6UdHZarQ3YIqkDuBuYFxFbACRNJGmB3FNUjGZm1r9Cb5SLiGXAsrKyyzPPA7gkfZQf+wR7DmqbmdkQqfYgtZmZ1SgnCDMzy+UEYWZmuZwgzMwslxOEmZnlcoIwM7NcThBmZpbLCcLMzHI5QZiZWS4vOWpm+6Xo9ZCt+pwgzGyfDcV6yFZ9ThBmts/6Ww/50sWrd00/bUOj4+nnmDpudCHn9hiEme2z/tY93ta3c4gjsanjRjN7ejGtNrcgzGyfjW9qpDsnSTQ3NRaycI1Vh1sQZrbPhmI9ZKs+tyDMbJ+VBqIvXbyabX07afZVTCOSE4SZ7Zei10O26nMXk5mZ5XKCMDOzXE4QZmaWywnCzMxyOUGYmVkuJwgzM8vlBGFmZrmcIMzMLJcThJmZ5XKCMDOzXE4QZmaWywnCzMxyOUGYmVkuJwgzM8vlBGFmZrkKTRCSZknqlLRe0mX91DlPUoekdZJuyJQfK+mHkh5J908sMlYzM9tdYQsGSWoAFgJnAl3ACklLI6IjU2cSMB84JSK2Sjoqc4rrgasi4g5JhwFeDd3MbAgVuaLcScD6iNgAIOk7wGygI1PnYmBhRGwFiIhNad2pwIERcUda/psC47Q61bqqmwVtnWzs6WW8l8w020ORXUzNwFOZ7a60LGsyMFnSfZIekDQrU94jaYmkVZIWpC2S3UiaK6ldUvvmzZsL+SZsZGpd1c38JWvo7uklgO6eXuYvWUPrqu5qh2ZWM6q9JvWBwCTgNGACcK+kaWn5qcAM4EngJuBDwH9kD46IRcAigJaWlhiqoG34W9DWSe/2vt3Kerf3ceni1bvWWba963j6OaaOG13tMKwgRbYguoFjMtsT0rKsLmBpRGyPiMeBR0kSRhfwcERsiIgdQCtwYoGxWp3Z2NObW76tz0Nd+2LquNHMnu5uuZGqyBbECmCSpONJEsP5wAfL6rQCFwDflDSGpGtpA9ADNEkaGxGbgTOA9gJjtTozvqmR7pwk0dzUyE0fObkKEZnVnsJaEOkn/08AbcAjwM0RsU7SlZLOTqu1AVskdQB3A/MiYktE9AF/A9wpaQ0g4NqiYrX6M2/mFBpH7T6s1TiqgXkzp1QpIrPao4iR0XXf0tIS7e1uZFjlWld1c+ni1Wzr20mzr2KyOiVpZUS05O2r9iC1WdXMmdG8a0Da3Upme/JUG2ZmlmuvCULSq4YiEDMzqy2VtCAekHSLpLMkqfCIzMysJlSSICaT3Iz2J8DPJf2zpMnFhmVmZtW21wQRiTsi4gKSuZMuBJZLukeSR/bMzEaovV7FlI5B/DFJC+JXwCeBpcB04Bbg+CIDNDOz6qjkMtf7gW8BcyKiK1PeLulrxYRlZmbVVkmCmBL93E0XEZ8f5HjMzKxGVDJI/UNJTaUNSUdIaiswJjMzqwGVJIixEdFT2kgX9zlqgPpmZjYCVJIg+iQdW9qQdBwwMiZwMjOzflUyBvEZ4MeS7iGZVfVUYG6hUZmZWdXtNUFExO2STgTemhZ9OiKeKTYsMzOrtkpnc+0DNgGHAFMlERH3FheWmZlVWyU3yv058CmSJUMfJmlJ3E+yypuZmY1QlQxSfwp4M/CLiDgdmEGyJKiZmY1glSSI30XE7wAkHRwRPwO8LqOZ2QhXyRhEV3qjXCtwh6StwC+KDcvMzKqtkquY3pc+vULS3cDhwO2FRmVmZlU3YIKQ1ACsi4jXAET
      "text/plain": [
       "<Figure size 432x288 with 1 Axes>"
      ]
     },
     "metadata": {
      "needs_background": "light"
     }
    }
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## 3. Comparison with alternatives\n"
   ],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "### Default LightGBM"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "source": [
    "from lightgbm import LGBMClassifier\n",
    "lgbm = LGBMClassifier()"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "source": [
    "lgbm.fit(X_train, y_train)"
   ],
   "outputs": [
    {
     "output_type": "execute_result",
     "data": {
      "text/plain": [
       "LGBMClassifier()"
      ]
     },
     "metadata": {},
     "execution_count": 13
    }
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "source": [
    "y_pred_lgbm = lgbm.predict(X_test)"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "### Default XGBoost"
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "source": [
    "from xgboost import XGBClassifier\n",
    "xgb = XGBClassifier()\n",
    "cat_columns = X_train.select_dtypes(include=['category']).columns\n",
    "X = X_train.copy()\n",
    "X[cat_columns] = X[cat_columns].apply(lambda x: x.cat.codes)\n"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "source": [
    "xgb.fit(X, y_train)"
   ],
   "outputs": [
    {
     "output_type": "execute_result",
     "data": {
      "text/plain": [
       "XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,\n",
       "              colsample_bynode=1, colsample_bytree=1, gamma=0, gpu_id=-1,\n",
       "              importance_type='gain', interaction_constraints='',\n",
       "              learning_rate=0.300000012, max_delta_step=0, max_depth=6,\n",
       "              min_child_weight=1, missing=nan, monotone_constraints='()',\n",
       "              n_estimators=100, n_jobs=0, num_parallel_tree=1, random_state=0,\n",
       "              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,\n",
       "              tree_method='exact', validate_parameters=1, verbosity=None)"
      ]
     },
     "metadata": {},
     "execution_count": 16
    }
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "source": [
    "X = X_test.copy()\n",
    "X[cat_columns] = X[cat_columns].apply(lambda x: x.cat.codes)\n",
    "y_pred_xgb = xgb.predict(X)"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "source": [
    "print('default xgboost accuracy', '=', 1 - sklearn_metric_loss_score('accuracy', y_pred_xgb, y_test))\n",
    "print('default lgbm accuracy', '=', 1 - sklearn_metric_loss_score('accuracy', y_pred_lgbm, y_test))\n",
    "print('flaml (4min) accuracy', '=', 1 - sklearn_metric_loss_score('accuracy', y_pred, y_test))"
   ],
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "default xgboost accuracy = 0.6676060098186078\n",
      "default lgbm accuracy = 0.6602346380315323\n",
      "flaml (4min) accuracy = 0.6713287750470908\n"
     ]
    }
   ],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "## 4. Customized Learner"
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "Some experienced automl users may have a preferred model to tune or may already have a reasonably by-hand-tuned model before launching the automl experiment. They need to select optimal configurations for the customized model mixed with standard built-in learners. \n",
    "\n",
    "FLAML can easily incorporate customized/new learners (preferably with sklearn API) provided by users in a real-time manner, as demonstrated below."
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "### Example of Regularized Greedy Forest\n",
    "\n",
    "[Regularized Greedy Forest](https://arxiv.org/abs/1109.0887) (RGF) is a machine learning method currently not included in FLAML. The RGF has many tuning parameters, the most critical of which are: `[max_leaf, n_iter, n_tree_search, opt_interval, min_samples_leaf]`. To run a customized/new learner, the user needs to provide the following information:\n",
    "* an implementation of the customized/new learner\n",
    "* a list of hyperparameter names and types\n",
    "* rough ranges of hyperparameters (i.e., upper/lower bounds)\n",
    "* choose initial value corresponding to low cost for cost-related hyperparameters (e.g., initial value for max_leaf and n_iter should be small)\n",
    "\n",
    "In this example, the above information for RGF is wrapped in a python class called *MyRegularizedGreedyForest* that exposes the hyperparameters."
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "source": [
    "''' SKLearnEstimator is the super class for a sklearn learner '''\n",
    "from flaml.model import SKLearnEstimator\n",
    "from flaml import tune\n",
    "from rgf.sklearn import RGFClassifier, RGFRegressor\n",
    "\n",
    "\n",
    "class MyRegularizedGreedyForest(SKLearnEstimator):\n",
    "    def __init__(self, task='binary', **config):\n",
    "        '''Constructor\n",
    "        \n",
    "        Args:\n",
    "            task: A string of the task type, one of\n",
    "                'binary', 'multi', 'regression'\n",
    "            config: A dictionary containing the hyperparameter names\n",
    "                and 'n_jobs' as keys. n_jobs is the number of parallel threads.\n",
    "        '''\n",
    "\n",
    "        super().__init__(task, **config)\n",
    "\n",
    "        '''task=binary or multi for classification task'''\n",
    "        if task in (\"binary\", \"multi\"):\n",
    "            self.estimator_class = RGFClassifier\n",
    "        else:\n",
    "            self.estimator_class = RGFRegressor\n",
    "\n",
    "    @classmethod\n",
    "    def search_space(cls, data_size, task):\n",
    "        '''[required method] search space\n",
    "\n",
    "        Returns:\n",
    "            A dictionary of the search space. \n",
    "            Each key is the name of a hyperparameter, and value is a dict with\n",
    "                its domain (required) and low_cost_init_value, init_value,\n",
    "                cat_hp_cost (if applicable).\n",
    "                e.g.,\n",
    "                {'domain': tune.randint(lower=1, upper=10), 'init_value': 1}.\n",
    "        '''\n",
    "        space = {        \n",
    "            'max_leaf': {'domain': tune.lograndint(lower=4, upper=data_size), 'init_value': 4, 'low_cost_init_value': 4},\n",
    "            'n_iter': {'domain': tune.lograndint(lower=1, upper=data_size), 'init_value': 1, 'low_cost_init_value': 1},\n",
    "            'n_tree_search': {'domain': tune.lograndint(lower=1, upper=32768), 'init_value': 1, 'low_cost_init_value': 1},\n",
    "            'opt_interval': {'domain': tune.lograndint(lower=1, upper=10000), 'init_value': 100},\n",
    "            'learning_rate': {'domain': tune.loguniform(lower=0.01, upper=20.0)},\n",
    "            'min_samples_leaf': {'domain': tune.lograndint(lower=1, upper=20), 'init_value': 20},\n",
    "        }\n",
    "        return space\n",
    "\n",
    "    @classmethod\n",
    "    def size(cls, config):\n",
    "        '''[optional method] memory size of the estimator in bytes\n",
    "        \n",
    "        Args:\n",
    "            config - the dict of the hyperparameter config\n",
    "\n",
    "        Returns:\n",
    "            A float of the memory size required by the estimator to train the\n",
    "            given config\n",
    "        '''\n",
    "        max_leaves = int(round(config['max_leaf']))\n",
    "        n_estimators = int(round(config['n_iter']))\n",
    "        return (max_leaves * 3 + (max_leaves - 1) * 4 + 1.0) * n_estimators * 8\n",
    "\n",
    "    @classmethod\n",
    "    def cost_relative2lgbm(cls):\n",
    "        '''[optional method] relative cost compared to lightgbm\n",
    "        '''\n",
    "        return 1.0\n"
   ],
   "outputs": [],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "### Add Customized Learner and Run FLAML AutoML\n",
    "\n",
    "After adding RGF into the list of learners, we run automl by tuning hyperpameters of RGF as well as the default learners. "
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "source": [
    "automl = AutoML()\n",
    "automl.add_learner(learner_name='RGF', learner_class=MyRegularizedGreedyForest)"
   ],
   "outputs": [],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    }
   }
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "source": [
    "settings = {\n",
    "    \"time_budget\": 10,  # total running time in seconds\n",
    "    \"metric\": 'accuracy', \n",
    "    \"estimator_list\": ['RGF', 'lgbm', 'rf', 'xgboost'],  # list of ML learners\n",
    "    \"task\": 'classification',  # task type    \n",
    "    \"log_file_name\": 'airlines_experiment_custom_learner.log',  # flaml log file \n",
    "    \"log_training_metric\": True,  # whether to log training metric\n",
    "}\n",
    "\n",
    "automl.fit(X_train = X_train, y_train = y_train, **settings)"
   ],
   "outputs": [
    {
     "output_type": "stream",
     "name": "stderr",
     "text": [
      "[flaml.automl: 10-08 15:17:57] {1458} INFO - Data split method: stratified\n",
      "[flaml.automl: 10-08 15:17:57] {1462} INFO - Evaluation method: holdout\n",
      "[flaml.automl: 10-08 15:17:57] {1510} INFO - Minimizing error metric: 1-accuracy\n",
      "[flaml.automl: 10-08 15:17:57] {1547} INFO - List of ML learners in AutoML Run: ['RGF', 'lgbm', 'rf', 'xgboost']\n",
      "[flaml.automl: 10-08 15:17:57] {1777} INFO - iteration 0, current learner RGF\n",
      "/home/dmx/miniconda2/envs/test/lib/python3.8/site-packages/rgf/utils.py:224: UserWarning: Cannot find FastRGF executable files. FastRGF estimators will be unavailable for usage.\n",
      "  warnings.warn(\"Cannot find FastRGF executable files. \"\n",
      "[flaml.automl: 10-08 15:17:59] {1894} INFO - Estimated sufficient time budget=718418s. Estimated necessary time budget=718s.\n",
      "[flaml.automl: 10-08 15:17:59] {1966} INFO -  at 2.8s,\testimator RGF's best error=0.3787,\tbest estimator RGF's best error=0.3787\n",
      "[flaml.automl: 10-08 15:17:59] {1777} INFO - iteration 1, current learner RGF\n",
      "[flaml.automl: 10-08 15:18:00] {1966} INFO -  at 4.1s,\testimator RGF's best error=0.3787,\tbest estimator RGF's best error=0.3787\n",
      "[flaml.automl: 10-08 15:18:00] {1777} INFO - iteration 2, current learner RGF\n",
      "[flaml.automl: 10-08 15:18:02] {1966} INFO -  at 5.2s,\testimator RGF's best error=0.3787,\tbest estimator RGF's best error=0.3787\n",
      "[flaml.automl: 10-08 15:18:02] {1777} INFO - iteration 3, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:02] {1966} INFO -  at 5.3s,\testimator lgbm's best error=0.3777,\tbest estimator lgbm's best error=0.3777\n",
      "[flaml.automl: 10-08 15:18:02] {1777} INFO - iteration 4, current learner RGF\n",
      "[flaml.automl: 10-08 15:18:03] {1966} INFO -  at 6.5s,\testimator RGF's best error=0.3787,\tbest estimator lgbm's best error=0.3777\n",
      "[flaml.automl: 10-08 15:18:03] {1777} INFO - iteration 5, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:03] {1966} INFO -  at 6.6s,\testimator lgbm's best error=0.3777,\tbest estimator lgbm's best error=0.3777\n",
      "[flaml.automl: 10-08 15:18:03] {1777} INFO - iteration 6, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:03] {1966} INFO -  at 6.7s,\testimator lgbm's best error=0.3777,\tbest estimator lgbm's best error=0.3777\n",
      "[flaml.automl: 10-08 15:18:03] {1777} INFO - iteration 7, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:03] {1966} INFO -  at 6.8s,\testimator lgbm's best error=0.3777,\tbest estimator lgbm's best error=0.3777\n",
      "[flaml.automl: 10-08 15:18:03] {1777} INFO - iteration 8, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:03] {1966} INFO -  at 6.8s,\testimator lgbm's best error=0.3777,\tbest estimator lgbm's best error=0.3777\n",
      "[flaml.automl: 10-08 15:18:03] {1777} INFO - iteration 9, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:03] {1966} INFO -  at 6.9s,\testimator lgbm's best error=0.3777,\tbest estimator lgbm's best error=0.3777\n",
      "[flaml.automl: 10-08 15:18:03] {1777} INFO - iteration 10, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:03] {1966} INFO -  at 7.1s,\testimator lgbm's best error=0.3765,\tbest estimator lgbm's best error=0.3765\n",
      "[flaml.automl: 10-08 15:18:03] {1777} INFO - iteration 11, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:04] {1966} INFO -  at 7.3s,\testimator lgbm's best error=0.3765,\tbest estimator lgbm's best error=0.3765\n",
      "[flaml.automl: 10-08 15:18:04] {1777} INFO - iteration 12, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:04] {1966} INFO -  at 7.5s,\testimator lgbm's best error=0.3765,\tbest estimator lgbm's best error=0.3765\n",
      "[flaml.automl: 10-08 15:18:04] {1777} INFO - iteration 13, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:04] {1966} INFO -  at 7.7s,\testimator lgbm's best error=0.3750,\tbest estimator lgbm's best error=0.3750\n",
      "[flaml.automl: 10-08 15:18:04] {1777} INFO - iteration 14, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:04] {1966} INFO -  at 7.9s,\testimator lgbm's best error=0.3750,\tbest estimator lgbm's best error=0.3750\n",
      "[flaml.automl: 10-08 15:18:04] {1777} INFO - iteration 15, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:04] {1966} INFO -  at 8.1s,\testimator lgbm's best error=0.3604,\tbest estimator lgbm's best error=0.3604\n",
      "[flaml.automl: 10-08 15:18:04] {1777} INFO - iteration 16, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:05] {1966} INFO -  at 8.3s,\testimator lgbm's best error=0.3604,\tbest estimator lgbm's best error=0.3604\n",
      "[flaml.automl: 10-08 15:18:05] {1777} INFO - iteration 17, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:05] {1966} INFO -  at 8.6s,\testimator lgbm's best error=0.3604,\tbest estimator lgbm's best error=0.3604\n",
      "[flaml.automl: 10-08 15:18:05] {1777} INFO - iteration 18, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:05] {1966} INFO -  at 8.8s,\testimator lgbm's best error=0.3600,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:05] {1777} INFO - iteration 19, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:05] {1966} INFO -  at 8.9s,\testimator lgbm's best error=0.3600,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:05] {1777} INFO - iteration 20, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:05] {1966} INFO -  at 9.0s,\testimator lgbm's best error=0.3600,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:05] {1777} INFO - iteration 21, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:05] {1966} INFO -  at 9.2s,\testimator lgbm's best error=0.3600,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:05] {1777} INFO - iteration 22, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:06] {1966} INFO -  at 9.3s,\testimator lgbm's best error=0.3600,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:06] {1777} INFO - iteration 23, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:06] {1966} INFO -  at 9.4s,\testimator lgbm's best error=0.3600,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:06] {1777} INFO - iteration 24, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:06] {1966} INFO -  at 9.6s,\testimator lgbm's best error=0.3600,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:06] {1777} INFO - iteration 25, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:06] {1966} INFO -  at 9.7s,\testimator lgbm's best error=0.3600,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:06] {1777} INFO - iteration 26, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:06] {1966} INFO -  at 9.8s,\testimator lgbm's best error=0.3600,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:06] {1777} INFO - iteration 27, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:06] {1966} INFO -  at 9.9s,\testimator xgboost's best error=0.3787,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:06] {1777} INFO - iteration 28, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:06] {1966} INFO -  at 9.9s,\testimator xgboost's best error=0.3787,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:06] {1777} INFO - iteration 29, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:06] {1966} INFO -  at 10.0s,\testimator xgboost's best error=0.3765,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:06] {1777} INFO - iteration 30, current learner rf\n",
      "[flaml.automl: 10-08 15:18:06] {1966} INFO -  at 10.0s,\testimator rf's best error=0.3787,\tbest estimator lgbm's best error=0.3600\n",
      "[flaml.automl: 10-08 15:18:06] {2073} INFO - selected model: LGBMClassifier(colsample_bytree=0.868332929662737,\n",
      "               learning_rate=0.5372172315260287, max_bin=255,\n",
      "               min_child_samples=24, n_estimators=4, num_leaves=23,\n",
      "               reg_alpha=0.006958608037974516, reg_lambda=0.07314321471228555,\n",
      "               verbose=-1)\n",
      "[flaml.automl: 10-08 15:18:06] {2144} INFO - not retraining because the time budget is too small.\n",
      "[flaml.automl: 10-08 15:18:06] {1571} INFO - fit succeeded\n",
      "[flaml.automl: 10-08 15:18:06] {1572} INFO - Time taken to find the best model: 8.79496955871582\n",
      "[flaml.automl: 10-08 15:18:06] {1583} WARNING - Time taken to find the best model is 88% of the provided time budget and not all estimators' hyperparameter search converged. Consider increasing the time budget.\n"
     ]
    }
   ],
   "metadata": {
    "slideshow": {
     "slide_type": "slide"
    },
    "tags": []
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## 5. Customized Metric\n",
    "\n",
    "It's also easy to customize the optimization metric. As an example, we demonstrate with a custom metric function which combines training loss and test loss as the final loss to minimize."
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "source": [
    "def custom_metric(X_test, y_test, estimator, labels, X_train, y_train,\n",
    "                  weight_test=None, weight_train=None, config=None,\n",
    "                  groups_test=None, groups_train=None):\n",
    "    from sklearn.metrics import log_loss\n",
    "    import time\n",
    "    start = time.time()\n",
    "    y_pred = estimator.predict_proba(X_test)\n",
    "    pred_time = (time.time() - start) / len(X_test)\n",
    "    test_loss = log_loss(y_test, y_pred, labels=labels,\n",
    "                         sample_weight=weight_test)\n",
    "    y_pred = estimator.predict_proba(X_train)\n",
    "    train_loss = log_loss(y_train, y_pred, labels=labels,\n",
    "                          sample_weight=weight_train)\n",
    "    alpha = 0.5\n",
    "    return test_loss * (1 + alpha) - alpha * train_loss, {\n",
    "        \"test_loss\": test_loss, \"train_loss\": train_loss, \"pred_time\": pred_time\n",
    "    }\n",
    "    # two elements are returned:\n",
    "    # the first element is the metric to minimize as a float number,\n",
    "    # the second element is a dictionary of the metrics to log"
   ],
   "outputs": [],
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "source": [
    "We can then pass this custom metric function to automl's `fit` method."
   ],
   "metadata": {}
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "source": [
    "automl = AutoML()\n",
    "settings = {\n",
    "    \"time_budget\": 10,  # total running time in seconds\n",
    "    \"metric\": custom_metric,  # pass the custom metric funtion here\n",
    "    \"task\": 'classification',  # task type\n",
    "    \"log_file_name\": 'airlines_experiment_custom_metric.log',  # flaml log file\n",
    "}\n",
    "\n",
    "automl.fit(X_train = X_train, y_train = y_train, **settings)"
   ],
   "outputs": [
    {
     "output_type": "stream",
     "name": "stderr",
     "text": [
      "[flaml.automl: 10-08 15:18:07] {1458} INFO - Data split method: stratified\n",
      "[flaml.automl: 10-08 15:18:07] {1462} INFO - Evaluation method: holdout\n",
      "[flaml.automl: 10-08 15:18:07] {1510} INFO - Minimizing error metric: customized metric\n",
      "[flaml.automl: 10-08 15:18:07] {1547} INFO - List of ML learners in AutoML Run: ['lgbm', 'rf', 'xgboost', 'extra_tree', 'lrl1']\n",
      "[flaml.automl: 10-08 15:18:07] {1777} INFO - iteration 0, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:07] {1894} INFO - Estimated sufficient time budget=33595s. Estimated necessary time budget=559s.\n",
      "[flaml.automl: 10-08 15:18:07] {1966} INFO -  at 1.0s,\testimator lgbm's best error=0.6647,\tbest estimator lgbm's best error=0.6647\n",
      "[flaml.automl: 10-08 15:18:07] {1777} INFO - iteration 1, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:08] {1966} INFO -  at 1.1s,\testimator lgbm's best error=0.6647,\tbest estimator lgbm's best error=0.6647\n",
      "[flaml.automl: 10-08 15:18:08] {1777} INFO - iteration 2, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:08] {1966} INFO -  at 1.2s,\testimator lgbm's best error=0.6491,\tbest estimator lgbm's best error=0.6491\n",
      "[flaml.automl: 10-08 15:18:08] {1777} INFO - iteration 3, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:08] {1966} INFO -  at 1.2s,\testimator xgboost's best error=0.6672,\tbest estimator lgbm's best error=0.6491\n",
      "[flaml.automl: 10-08 15:18:08] {1777} INFO - iteration 4, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:08] {1966} INFO -  at 1.4s,\testimator lgbm's best error=0.6423,\tbest estimator lgbm's best error=0.6423\n",
      "[flaml.automl: 10-08 15:18:08] {1777} INFO - iteration 5, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:08] {1966} INFO -  at 1.5s,\testimator lgbm's best error=0.6423,\tbest estimator lgbm's best error=0.6423\n",
      "[flaml.automl: 10-08 15:18:08] {1777} INFO - iteration 6, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:08] {1966} INFO -  at 1.6s,\testimator lgbm's best error=0.6400,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:08] {1777} INFO - iteration 7, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:08] {1966} INFO -  at 1.7s,\testimator lgbm's best error=0.6400,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:08] {1777} INFO - iteration 8, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:08] {1966} INFO -  at 1.9s,\testimator lgbm's best error=0.6400,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:08] {1777} INFO - iteration 9, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:08] {1966} INFO -  at 2.0s,\testimator xgboost's best error=0.6672,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:08] {1777} INFO - iteration 10, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:09] {1966} INFO -  at 2.1s,\testimator xgboost's best error=0.6500,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:09] {1777} INFO - iteration 11, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:18:09] {1966} INFO -  at 2.3s,\testimator extra_tree's best error=0.6536,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:09] {1777} INFO - iteration 12, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:09] {1966} INFO -  at 2.4s,\testimator xgboost's best error=0.6413,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:09] {1777} INFO - iteration 13, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:09] {1966} INFO -  at 2.5s,\testimator xgboost's best error=0.6413,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:09] {1777} INFO - iteration 14, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:09] {1966} INFO -  at 2.6s,\testimator xgboost's best error=0.6413,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:09] {1777} INFO - iteration 15, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:09] {1966} INFO -  at 2.8s,\testimator lgbm's best error=0.6400,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:09] {1777} INFO - iteration 16, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:18:09] {1966} INFO -  at 3.0s,\testimator extra_tree's best error=0.6446,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:09] {1777} INFO - iteration 17, current learner rf\n",
      "[flaml.automl: 10-08 15:18:10] {1966} INFO -  at 3.2s,\testimator rf's best error=0.6470,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:10] {1777} INFO - iteration 18, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:10] {1966} INFO -  at 3.4s,\testimator lgbm's best error=0.6400,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:10] {1777} INFO - iteration 19, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:10] {1966} INFO -  at 3.6s,\testimator xgboost's best error=0.6413,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:10] {1777} INFO - iteration 20, current learner rf\n",
      "[flaml.automl: 10-08 15:18:10] {1966} INFO -  at 3.8s,\testimator rf's best error=0.6411,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:10] {1777} INFO - iteration 21, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:10] {1966} INFO -  at 4.0s,\testimator xgboost's best error=0.6413,\tbest estimator lgbm's best error=0.6400\n",
      "[flaml.automl: 10-08 15:18:10] {1777} INFO - iteration 22, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:11] {1966} INFO -  at 4.4s,\testimator lgbm's best error=0.6358,\tbest estimator lgbm's best error=0.6358\n",
      "[flaml.automl: 10-08 15:18:11] {1777} INFO - iteration 23, current learner rf\n",
      "[flaml.automl: 10-08 15:18:11] {1966} INFO -  at 4.6s,\testimator rf's best error=0.6411,\tbest estimator lgbm's best error=0.6358\n",
      "[flaml.automl: 10-08 15:18:11] {1777} INFO - iteration 24, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:18:11] {1966} INFO -  at 4.7s,\testimator extra_tree's best error=0.6446,\tbest estimator lgbm's best error=0.6358\n",
      "[flaml.automl: 10-08 15:18:11] {1777} INFO - iteration 25, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:18:11] {1966} INFO -  at 4.9s,\testimator extra_tree's best error=0.6446,\tbest estimator lgbm's best error=0.6358\n",
      "[flaml.automl: 10-08 15:18:11] {1777} INFO - iteration 26, current learner rf\n",
      "[flaml.automl: 10-08 15:18:12] {1966} INFO -  at 5.1s,\testimator rf's best error=0.6411,\tbest estimator lgbm's best error=0.6358\n",
      "[flaml.automl: 10-08 15:18:12] {1777} INFO - iteration 27, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:12] {1966} INFO -  at 5.3s,\testimator xgboost's best error=0.6393,\tbest estimator lgbm's best error=0.6358\n",
      "[flaml.automl: 10-08 15:18:12] {1777} INFO - iteration 28, current learner extra_tree\n",
      "[flaml.automl: 10-08 15:18:12] {1966} INFO -  at 5.4s,\testimator extra_tree's best error=0.6436,\tbest estimator lgbm's best error=0.6358\n",
      "[flaml.automl: 10-08 15:18:12] {1777} INFO - iteration 29, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:12] {1966} INFO -  at 5.7s,\testimator xgboost's best error=0.6342,\tbest estimator xgboost's best error=0.6342\n",
      "[flaml.automl: 10-08 15:18:12] {1777} INFO - iteration 30, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:12] {1966} INFO -  at 6.0s,\testimator lgbm's best error=0.6351,\tbest estimator xgboost's best error=0.6342\n",
      "[flaml.automl: 10-08 15:18:12] {1777} INFO - iteration 31, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:13] {1966} INFO -  at 6.3s,\testimator lgbm's best error=0.6351,\tbest estimator xgboost's best error=0.6342\n",
      "[flaml.automl: 10-08 15:18:13] {1777} INFO - iteration 32, current learner rf\n",
      "[flaml.automl: 10-08 15:18:13] {1966} INFO -  at 6.4s,\testimator rf's best error=0.6411,\tbest estimator xgboost's best error=0.6342\n",
      "[flaml.automl: 10-08 15:18:13] {1777} INFO - iteration 33, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:13] {1966} INFO -  at 6.7s,\testimator xgboost's best error=0.6342,\tbest estimator xgboost's best error=0.6342\n",
      "[flaml.automl: 10-08 15:18:13] {1777} INFO - iteration 34, current learner lgbm\n",
      "[flaml.automl: 10-08 15:18:13] {1966} INFO -  at 6.9s,\testimator lgbm's best error=0.6351,\tbest estimator xgboost's best error=0.6342\n",
      "[flaml.automl: 10-08 15:18:13] {1777} INFO - iteration 35, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:14] {1966} INFO -  at 7.1s,\testimator xgboost's best error=0.6342,\tbest estimator xgboost's best error=0.6342\n",
      "[flaml.automl: 10-08 15:18:14] {1777} INFO - iteration 36, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:14] {1966} INFO -  at 7.3s,\testimator xgboost's best error=0.6330,\tbest estimator xgboost's best error=0.6330\n",
      "[flaml.automl: 10-08 15:18:14] {1777} INFO - iteration 37, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:14] {1966} INFO -  at 7.5s,\testimator xgboost's best error=0.6330,\tbest estimator xgboost's best error=0.6330\n",
      "[flaml.automl: 10-08 15:18:14] {1777} INFO - iteration 38, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:14] {1966} INFO -  at 7.8s,\testimator xgboost's best error=0.6330,\tbest estimator xgboost's best error=0.6330\n",
      "[flaml.automl: 10-08 15:18:14] {1777} INFO - iteration 39, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:14] {1966} INFO -  at 8.0s,\testimator xgboost's best error=0.6330,\tbest estimator xgboost's best error=0.6330\n",
      "[flaml.automl: 10-08 15:18:14] {1777} INFO - iteration 40, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:15] {1966} INFO -  at 8.2s,\testimator xgboost's best error=0.6330,\tbest estimator xgboost's best error=0.6330\n",
      "[flaml.automl: 10-08 15:18:15] {1777} INFO - iteration 41, current learner xgboost\n",
      "[flaml.automl: 10-08 15:18:17] {1966} INFO -  at 10.1s,\testimator xgboost's best error=0.6290,\tbest estimator xgboost's best error=0.6290\n",
      "[flaml.automl: 10-08 15:18:17] {2073} INFO - selected model: XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1.0,\n",
      "              colsample_bynode=1, colsample_bytree=0.7942569492674472, gamma=0,\n",
      "              gpu_id=-1, grow_policy='lossguide', importance_type='gain',\n",
      "              interaction_constraints='', learning_rate=0.6413547778096401,\n",
      "              max_delta_step=0, max_depth=0, max_leaves=17,\n",
      "              min_child_weight=13.753540541999772, missing=nan,\n",
      "              monotone_constraints='()', n_estimators=4, n_jobs=-1,\n",
      "              num_parallel_tree=1, random_state=0,\n",
      "              reg_alpha=0.016714365103792518, reg_lambda=0.4874780682949813,\n",
      "              scale_pos_weight=1, subsample=1.0, tree_method='hist',\n",
      "              use_label_encoder=False, validate_parameters=1, verbosity=0)\n",
      "[flaml.automl: 10-08 15:18:18] {2136} INFO - retrain xgboost for 1.8s\n",
      "[flaml.automl: 10-08 15:18:18] {2142} INFO - retrained model: XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1.0,\n",
      "              colsample_bynode=1, colsample_bytree=0.7942569492674472, gamma=0,\n",
      "              gpu_id=-1, grow_policy='lossguide', importance_type='gain',\n",
      "              interaction_constraints='', learning_rate=0.6413547778096401,\n",
      "              max_delta_step=0, max_depth=0, max_leaves=17,\n",
      "              min_child_weight=13.753540541999772, missing=nan,\n",
      "              monotone_constraints='()', n_estimators=4, n_jobs=-1,\n",
      "              num_parallel_tree=1, random_state=0,\n",
      "              reg_alpha=0.016714365103792518, reg_lambda=0.4874780682949813,\n",
      "              scale_pos_weight=1, subsample=1.0, tree_method='hist',\n",
      "              use_label_encoder=False, validate_parameters=1, verbosity=0)\n",
      "[flaml.automl: 10-08 15:18:18] {1571} INFO - fit succeeded\n",
      "[flaml.automl: 10-08 15:18:18] {1572} INFO - Time taken to find the best model: 10.063513994216919\n",
      "[flaml.automl: 10-08 15:18:18] {1583} WARNING - Time taken to find the best model is 101% of the provided time budget and not all estimators' hyperparameter search converged. Consider increasing the time budget.\n"
     ]
    }
   ],
   "metadata": {}
  }
 ],
 "metadata": {
  "interpreter": {
   "hash": "ea9f131eb1b7663628f6445553ba215a834e2f0b4d18774746f0f47938ce4671"
  },
  "kernelspec": {
   "name": "python3",
   "display_name": "Python 3.8.0 64-bit ('test': conda)"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.0"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}