自动化的机器学习:5个常用AutoML 框架介绍
ccwgpt 2024-10-01 08:25 29 浏览 0 评论
AutoML 可以为预测建模问题自动找到数据准备、模型和模型超参数的最佳组合,本文整理了5个最常见且被熟知的开源AutoML 框架。
AutoML框架执行的任务可以被总结成以下几点:
- 预处理和清理数据。
- 选择并构建适当的特征。
- 选择合适的模型。
- 优化模型超参数。
- 设计神经网络的拓扑结构(如果使用深度学习)。
- 机器学习模型后处理。
- 结果的可视化和展示。
在本文中,我们将介绍以下5 个开源 autoML 库或框架:
- Auto-Sklearn
- TPOT
- Hyperopt Sklearn
- Auto-Keras
- H2O AutoML
1、Auto-Sklearn
Auto-sklearn 是一个开箱即用的自动化机器学习库。 auto-sklearn 以 scikit-learn 为基础,自动搜索正确的学习算法并优化其超参数。 通过元学习、贝叶斯优化和集成学习等搜索可以获得最佳的数据处理管道和模型。它可以处理大部分繁琐的工作,例如预处理和特征工程技术: One-Hot 编码、特征归一化、降维等。
安装:
#pip
pip install auto-sklearn
#conda
conda install -c conda-forge auto-sklearn
因为进行了大量的封装,所以使用的方法sklearn基本一样,以下是样例代码:
import sklearn.datasets
import sklearn.metrics
import autosklearn.regression
import matplotlib.pyplot as plt
X, y = sklearn.datasets.load_diabetes(return_X_y=True)
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, random_state=1)
automl = autosklearn.regression.AutoSklearnRegressor(
time_left_for_this_task=120,
per_run_time_limit=30,
tmp_folder='/tmp/autosklearn_regression_example_tmp',
)
automl.fit(X_train, y_train, dataset_name='diabetes')
2、TPOT
TPOT(Tree-based Pipeline Optimization Tool)是一个 Python 自动化机器学习工具,它使用遗传算法优化对机器学习的流程进行优化。它也是基于 Scikit-Learn 提供的方法进行数据转换和机器学习模型的构建,但是它使用遗传算法编程进行随机和全局搜索。以下是TPOT 搜索流程:
安装:
#pip
pip insall tpot
#conda
conda install -c conda-forge tpot
样例代码:
from tpot import TPOTClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import numpy as np
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64),
iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42)
tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2, random_state=42)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))
tpot.export('tpot_iris_pipeline.py')
3、HyperOpt-Sklearn:
HyperOpt-Sklearn 是 HyperOpt 的包装器,可以将 AutoML 和 HyperOpt 与 Scikit-Learn 进行整合,这个库包含了数据预处理的转换和分类、回归算法模型。文档中介绍说:它专为具有数百个参数的模型进行大规模优化而设计 并允许跨多核和多台机器扩展优化过程。
安装:
pip install hyperopt
样例代码:
from pandas import read_csv
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from hpsklearn import HyperoptEstimator
from hpsklearn import any_regressor
from hpsklearn import any_preprocessing
from hyperopt import tpe
# load dataset
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64),
iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42)
model = HyperoptEstimator(regressor=any_regressor('reg'), preprocessing=any_preprocessing('pre'), loss_fn=mean_absolute_error, algo=tpe.suggest, max_evals=50, trial_timeout=30)
model.fit(X_train, y_train)
# summarize performance
mae = model.score(X_test, y_test)
print("MAE: %.3f" % mae)
# summarize the best model
print(model.best_model())
4、AutoKeras
AutoKeras 是一个基于 Keras 的 AutoML 系统,只需几行代码就可以实现神经架构搜索(NAS)的强大功能。 它由德克萨斯 A&M 大学的 DATA 实验室开发,以 TensorFlow的tf.keras API 和Keras为基础进行实现 。
AutoKeras 可以支持不同的任务,例如图像分类、结构化数据分类或回归等。
安装:
pip install autokeras
样例代码:
import numpy as np
import tensorflow as tf
from tensorflow.keras.datasets import mnist
import autokeras as ak
#Load dataset
(x_train, y_train), (x_test, y_test) = mnist.load_data()
print(x_train.shape) # (60000, 28, 28)
print(y_train.shape) # (60000,)
print(y_train[:3]) # array([7, 2, 1], dtype=uint8)
# Initialize the image classifier.
clf = ak.ImageClassifier(overwrite=True, max_trials=1)
# Feed the image classifier with training data.
clf.fit(x_train, y_train, epochs=10)
# Predict with the best model.
predicted_y = clf.predict(x_test)
print(predicted_y)
# Evaluate the best model with testing data.
print(clf.evaluate(x_test, y_test))
5、H2O AutoML:
H2O 的 AutoML 可用于在用户指定的时间限制内自动训练和调整许多模型。
H2O 提供了许多适用于 AutoML 对象(模型组)以及单个模型的可解释性方法。 可以自动生成解释,并提供一个简单的界面来探索和解释 AutoML 模型。
安装:
pip insall h2o
H2O可以更详细的说是一个分布式的机器学习平台,所以就需要建立H2O的集群,这部分的代码是使用的java开发的,就需要安装jdk的支持。
在安装完成JAVA后,并且环境变量设置了java路径的情况下在cmd执行以下命令:
java -jar path_to/h2o.jar
就可以启动H2O的集群,就可以通过Web界面进行操作,如果想使用Python代码编写,可以使用以下示例
import h2o
h2o.init()
from h2o.automl import H2OAutoML
churn_df = h2o.import_file('https://raw.githubusercontent.com/srivatsan88/YouTubeLI/master/dataset/WA_Fn-UseC_-Telco-Customer-Churn.csv')
churn_df.types
churn_df.describe()
churn_train,churn_test,churn_valid = churn_df.split_frame(ratios=[.7, .15])
churn_train
y = "Churn"
x = churn_df.columns
x.remove(y)
x.remove("customerID")
aml = H2OAutoML(max_models = 10, seed = 10, exclude_algos = ["StackedEnsemble", "DeepLearning"], verbosity="info", nfolds=0)
!nvidia-smi
aml.train(x = x, y = y, training_frame = churn_train, validation_frame=churn_valid)
lb = aml.leaderboard
lb.head()
churn_pred=aml.leader.predict(churn_test)
churn_pred.head()
aml.leader.model_performance(churn_test)
model_ids = list(aml.leaderboard['model_id'].as_data_frame().iloc[:,0])
#se = h2o.get_model([mid for mid in model_ids if "StackedEnsemble_AllModels" in mid][0])
#metalearner = h2o.get_model(se.metalearner()['name'])
model_ids
h2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0])
out = h2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0])
out.params
out.convert_H2OXGBoostParams_2_XGBoostParams()
out
out_gbm = h2o.get_model([mid for mid in model_ids if "GBM" in mid][0])
out.confusion_matrix()
out.varimp_plot()
aml.leader.download_mojo(path = "./")
总结
在本文中,我们总结了 5 个 AutoML 库以及它如何检查机器学习进行任务的自动化,例如数据预处理、超参数调整、模型选择和评估。除了这5个常见的库以外还有一些其他 AutoML 库,例如 AutoGluon、MLBoX、TransmogrifAI、Auto -WEKA、AdaNet、MLjar、TransmogrifAI、Azure Machine Learning、Ludwig等。
作者:Abonia Sojasingarayar
相关推荐
- 固识像系统曝光!类魂篝火点与多角色切换战斗有何亮点?
-
由Tipsworks开发,叠纸网络发行的全端游戏《万物契约》今日发布了第一支实机演示PV。火子哥一直以来还是比较关注这款游戏的,今天就带大家来看看这次的实机演示透露出什么新东西。开头在经过了一段预渲染...
- Docker 架构详解与核心概念实战图解:一文读懂容器的前世今生
-
不懂Docker架构,你只是“用容器的人”;理解了它的底层逻辑,才能成为真正的高手!在学习Docker之前,很多同学可能会陷入一个误区:“反正我用dockerrun就能跑起服务,架构这种...
- 新考纲-系统架构设计师(软考高级)一站式通关课程(25章完结)
-
新考纲-系统架构设计师(软考高级)一站式通关课程(25章完结)获课》jzit.top/5255/针对新旧考纲中新增的云原生和AI架构考点,考生可以采取以下应对策略:一、云原生考点应对策略深入理解云原生...
- 前后端分离的项目管理系统框架
-
技术栈:Thinkphp、Vue3、Typescript、Element-plus、pinia、Echarts等
- 掌握这6种软件架构,构建可维护、可扩展的系统不再难
-
说实话,大多数人不会一觉醒来突然决定:“今天,我要成为一名软件架构师!”通常的故事是这样的:一个小项目不断长大,代码像野兽一样在每个角落咆哮,而你终于意识到:“也许我应该早点考虑怎么架构这玩意儿。”软...
- Windows实时拓展架构-鸿道Intewell-win构型
-
鸿道Intewell操作系统软件采用开放式结构,具备较高的模块化程度,根据应用场景需要进行自由裁剪定制。实时扩展构型用于在多核处理器上使用硬件隔离技术,允许在同一台目标机上同时运行一个通用操作系统(G...
- 高手编写的自动化测试框架是如何管理用例?他们都会用到这个包。
-
本文是接口自动化测试框架系列篇的第四篇,主要介绍yaml包的使用。自动化测试的本质是将功能测试用例交给代码去执行,测试人员往往是在自动化框架添加对应的测试用例即可(也叫测试脚本)。而维护测试用例...
- 日资著名车企在自动化设备中采用的PLC程序标准框架
-
日资著名车企在自动化设备中采用的PLC程序标准框架,通常融合了先进的自动化控制理念与严谨的日式管理风格,注重程序的可靠性、可维护性和扩展性。以下是一个详细的PLC程序标准框架说明:一、程序框架的基本结...
- Robot Framework实现多平台自动化测试框架搭建
-
RobotFramework官方站:https://robotframework.org/一、robotframework安装pipinstallrobotframework二、robotf...
- chatgpt只用3秒钟就能写一个基于pytest的自动化框架
-
以下是一个使用pytest框架进行百度登录界面自动化测试的示例代码:1.安装pytest首先需要安装pytest,可以使用以下命令进行安装:pipinstallpytest2.编写测试用例在项目...
- API 自动化测试框架分享
-
前言接口自动化逐渐成为各大公司投入产出最高的测试技术。但是如何在版本迅速迭代过程中提高接口自动化的测试效率,仍然是大部分公司需要解决的问题。框架定位数据驱动设计模式,无需写测试代码脚本即可实现自动化等...
- 资深测试必备技能!TestNG自动化测试框架实战详解
-
1、TestNG导言在软件测试工作中,自动测试框架是不可或缺的,之前有Junit和Nunit框架,后有TestNG。TestNG不但吸取了Junit和Nunit框架的思想,而且创造了更强大的功能,它不...
- Java开发中的自动化测试框架:从零开始玩转测试工具
-
Java开发中的自动化测试框架:从零开始玩转测试工具在Java开发的世界里,自动化测试框架就像一位忠诚的助手,它不仅能帮你发现代码中的“隐形炸弹”,还能让你的程序更健壮、更可靠。那么,今天就让我们一起...
- 测试新手如何搭建自动化框架 ?手把手教会从0到1的搭建过程。
-
1.接口自动化测试自动化测试虽然是测试中比较热的一门技术,但凡一个测试岗位,你几乎都能看到有自动化测试的要求。但不得不说,最入门的自动化测试其实已经烂大街了,就像国产神车H6,随处可见。当然...
- 塞土族领导人:应在联合国决议规定框架内解决塞浦路斯问题
-
新华社尼科西亚10月31日电(记者张章)塞浦路斯媒体10月31日报道说,塞土耳其族领导人阿肯哲日前表示,塞浦路斯问题的解决应在联合国安理会决议规定的框架内进行。据报道,阿肯哲30日晚在土耳其伊斯坦布尔...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- bootstrap框架 (43)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)