微软预览 ML.NET 的文本分类 API



微软发布了 ML.NET 文本分类 API 的预览版,该 API 旨在更轻松地使用开源 ML.NET 机器学习框架训练自定义文本分类模型。
微软表示,6 月 14 日推出的 ML.NET 文本分类 API 使用“最先进的”深度学习技术。 ML.
NET 允许开发人员将自定义机器学习模型集成到 .NET 应用程序中。文本分类是对文本应用标签或类别的过程。
常见用例包括将电子邮件分类为垃圾邮件或非垃圾邮件、分析客户评论中的正面或负面情绪以及应用标签来支持票证。 ML.NET 文本分类 API 由 TorchSharp .
NET 库提供支持,该库提供对支持 PyTorch 机器学习框架的 libtorch 库的访问。 TorchSharp 具有在 .NET 中从头开始训练神经网络的低级功能。
对于 ML.NET,TorchSharp 的一些复杂性已被抽象化,以使训练更容易。 微软与 Microsoft Research 合作,采用 TorchSharp 实现 NAS-BERT(来自 Transformers 的双向编码器表示),这是一种通过神经架构搜索获得的 BERT 变体,并将其添加到 ML.
NET。从该模型的预训练版本开始,文本分类 API 使用用户的数据来微调现有模型,而不是从头开始构建新模型。 文本分类 API 是 ML.NET 的 2.
0.0 和 0.20.
0 预览版的一部分。除了 Microsoft.
ML 包之外,它还需要 Microsoft.ML.TorchSharp 和 TorchSharp-cpu(如果使用 CPU)或 TorchSharp-cuda-windows 或 TorchSharp-cuda-linux(如果使用 GPU)。< br> 开发人员可以使用 Visual Studio 中的 NuGet 包管理器或 .NET CLI 来安装包。 API 的代码示例可以在 Text Classification API Notebook 中找到。
微软指出,API 仍然存在一些限制,例如无法使用 Evaluate 方法来计算评估指标。计划对 API 进行改进,同时引入其他基于场景的 API。

Yorumlar

Bu blogdaki popüler yayınlar

只需50美元即可训练成为一名熟练的Python编码器

DataStax 使 Astra 流媒体服务普遍可用

TypeScript 4.1 Beta带来了模板文字类型