Tribuo提供了用于在Java中构建和部署分类,聚类和回归模型的工具,以及TensorFlow,XGBoost和ONNX的接口。
为了满足企业在机器学习领域的需求,Oracle开源了Tribuo机器学习库。通过Tribuo, Oracle的目标是让用Java构建和部署机器学习模型变得更容易,类似于现在正大行其道的Python。在Apache 2.0许可下发布,由Oracle实验室开发,可以从GitHub和Maven Central访问。
Tribuo提供了标准的机器学习功能,包括分类、聚类、异常检测和回归算法。Tribuo还包括用于加载和转换数据的管道,并为支持的预测任务提供了一套评估。例如,因为Tribuo收集关于输入的统计信息,所以Tribuo可以描述每个输入的范围。它还在后台命名特性、管理特性ID和输出ID,以避免在链接模型、加载数据和特性化输入时ID冲突和混淆。
Tribuo可在Java 8+上运行,可以在LTS版本的Java和最新版本上进行测试。 Tribuo本身是一个纯Java库,并且在所有Java平台上都受支持。 但是,其中某些接口需要本机代码,因此仅在有本机库支持的情况下才受支持。 可以在Windows 10,macOS和Linux(RHEL / OL / CentOS 7+)上的x86_64架构上进行测试,因为这些是与之交互的本机库的受支持平台。
Oracle认为Tribuo填补了企业应用程序机器学习市场的空白。 例如,虽然Google建立的TensorFlow库提供了深度学习的核心算法,但Tribuo提供了几种机器学习算法,其中一些在TensorFlow中,而另一些则不在,同时还提供了与TensorFlow的接口,Oracle的Adam Pocock说, Oracle Labs技术人员的主要成员。 Pocock表示,虽然Apache Spark分析引擎适用于大型分布式系统,但Tribuo适用于可容纳在一台计算机上的较小计算。
除TensorFlow之外,Tribuo还提供了XGBoost和ONNX运行时的接口,从而允许将以ONNX格式存储或在TensorFlow和XGBoost中训练的模型与本机Tribuo模型一起部署。
GitHub地址:https://github.com/oracle/tribuo