Introduzione all'IA e al machine learning in BigQuery

BigQuery ML ti consente Creare ed eseguire modelli di machine learning (ML) utilizzando le query GoogleSQL. Ti consente inoltre di accedere ai modelli Vertex AI e alle API Cloud AI per eseguire attività di intelligenza artificiale (IA) come la generazione di testo o la traduzione automatica. Gemini per Google Cloud fornisce anche assistenza basata sull'IA per le attività di BigQuery. Per visualizzare un elenco di funzionalità basate sull'IA in BigQuery, consulta la panoramica di Gemini in BigQuery.

Di solito, l'esecuzione di ML o AI su set di dati di grandi dimensioni richiede un'ampia programmazione e la conoscenza dei framework ML. Questi requisiti limitano lo sviluppo della soluzione a un gruppo molto ristretto di persone all'interno di ogni azienda ed escludono gli analisti di dati che comprendono i dati, ma hanno conoscenze limitate di ML e programmazione. Tuttavia, con BigQuery ML, i professionisti SQL possono le competenze e gli strumenti SQL esistenti per creare e valutare i modelli e generare da LLM e API di IA su Cloud.

Puoi utilizzare le funzionalità di BigQuery ML utilizzando quanto segue:

Vantaggi di BigQuery ML

BigQuery ML offre diversi vantaggi rispetto ad altri approcci all'utilizzo di ML o AI con un data warehouse basato su cloud:

  • BigQuery ML democratizza l'utilizzo del machine learning e dell'IA in quanto permette ai data analyst, gli utenti principali del data warehouse, di creare ed eseguire modelli utilizzando strumenti di business intelligence e fogli di lavoro esistenti. Analisi predittiva possono guidare il processo decisionale aziendale in tutta l'organizzazione.
  • Non è necessario programmare una soluzione ML o AI utilizzando Python o Java. Tu addestrare modelli e accedere alle risorse AI mediante SQL, familiari agli analisti di dati.
  • BigQuery ML aumenta la velocità di sviluppo dei modelli innovazione eliminando la necessità di spostare i dati dal data warehouse. BigQuery ML, invece, porta l'ML ai dati, offrendo i seguenti vantaggi:

    • Complessità ridotta perché sono necessari meno strumenti.
    • Aumento della velocità di produzione perché non è necessario spostare e formattare grandi quantità di dati per i framework ML basati su Python per addestrare un modello in BigQuery.

    Per ulteriori informazioni, guarda il video Come accelerare lo sviluppo del machine learning con BigQuery ML.

IA generativa e modelli preaddestrati

Puoi utilizzare modelli remoti per accedere ai modelli Vertex AI e alle API Cloud AI da BigQuery ML per eseguire le seguenti attività:

Modelli supportati

Un modello in BigQuery ML rappresenta ciò che un sistema ML ha appreso dai dati di addestramento. Le sezioni seguenti descrivono i tipi di modelli supportati da BigQuery ML.

Modelli addestrati internamente

I seguenti modelli sono integrati in BigQuery ML:

  • L'analisi del contributo (Anteprima) serve a determinare l'effetto di una o più dimensioni sul valore di una determinata metrica. Ad esempio, puoi vedere l'effetto della posizione del negozio e della data di vendita sulle entrate del negozio. Per maggiori informazioni le informazioni, vedi Panoramica dell'analisi del contributo.
  • Regressione lineare per le previsioni. Ad esempio, questo modello prevede le vendite di un articolo su un dato giorno. Le etichette hanno valore reale, nel senso che non possono essere all'infinito positivo infinito negativo o valore NaN (non un numero).
  • La regressione logistica è utilizzata per la classificazione di due o più valori possibili, ad esempio se un input è low-value, medium-value o high-value. Le etichette possono avere fino a 50 valori univoci.
  • Cluster K-means riguarda la segmentazione dei dati. Ad esempio, questo modello identifica i segmenti di clienti. K-means è una tecnica di apprendimento non supervisionato, pertanto l'addestramento del modello non richiede etichette o dati suddivisi per l'addestramento o la valutazione.
  • Fattorizzazione matriciale è la creazione di sistemi di suggerimenti sui prodotti. Puoi creare prodotti suggerimenti sulla base di dati storici su comportamento dei clienti, transazioni e prodotti le tue valutazioni, poi usa questi consigli per creare ed esperienze variegate.
  • Analisi delle componenti principali (PCA) il processo di calcolo delle componenti principali e il loro utilizzo eseguire un cambio di base sui dati. È comunemente usato per la dimensionalità di riduzione del traffico proiettando ogni punto dati solo sulle prime entità per ottenere dati a bassa dimensionalità preservando la maggior parte dei la variazione dei dati.
  • Serie temporali è per eseguire previsioni delle serie temporali. Puoi utilizzare questa funzionalità per creare milioni di modelli di serie temporali e utilizzarli per le previsioni. Il modello gestisce automaticamente anomalie, stagionalità e festività.

Puoi eseguire una prova sulla CREATE MODEL per i modelli addestrati internamente per ottenere una stima e la quantità di dati che elaboreranno se li esegui.

Modelli addestrati esternamente

I seguenti modelli sono esterni a BigQuery ML e addestrati in Vertex AI:

  • DNN (Deep Neural Network) è la creazione di reti neurali profonde basate su TensorFlow di classificazione e regressione.
  • Wide & Deep è utile per problemi generici di regressione e classificazione su larga scala con input sparsi (caratteristiche categoriche con un elevato numero di possibili valori per caratteristica), come motori per suggerimenti, ricerca e problemi di classificazione.
  • Codificatore automatico è la creazione di modelli basati su TensorFlow, con il supporto di rappresentazioni di dati sparsi. Puoi utilizzare i modelli in BigQuery ML per attività come il rilevamento di anomalie non supervisionato e la riduzione della dimensionalità non lineare.
  • Boosted Tree è destinato alla creazione di modelli di classificazione e regressione basati su XGBoost.
  • La foresta casuale consente di costruire alberi decisionali con più metodi di apprendimento per la classificazione, la regressione e altre attività durante l'addestramento.
  • AutoML è un servizio ML supervisionato che crea ed esegue il deployment di regressione lineare su dati tabulari ad alta velocità e scalabilità.

Non puoi eseguire un simulacro sulle istruzioni CREATE MODEL per i modelli addestrati esternamente per ottenere una stima della quantità di dati che verranno elaborati se li esegui.

Modelli remoti

Puoi creare modelli remoti in BigQuery che utilizzano modelli di cui è stato eseguito il deployment in Vertex AI. Fai riferimento al modello di cui è stato eseguito il deployment specificando il suo endpoint HTTPS nell'istruzione CREATE MODEL del modello remoto.

Le istruzioni CREATE MODEL per i modelli remoti non elaborano byte e non comportano addebiti di BigQuery.

Modelli importati

BigQuery ML ti consente di importare modelli personalizzati addestrati al di fuori di BigQuery ed eseguire previsioni al suo interno. Puoi importare i seguenti modelli in BigQuery da Cloud Storage:

  • ONNX (Open Neural Network Exchange) è un formato standard aperto per la rappresentazione dei modelli ML. Utilizzo ONNX, puoi creare modelli addestrati con i framework ML più diffusi come PyTorch e scikit-learn, disponibili in BigQuery ML.
  • TensorFlow è una libreria software open source gratuita per ML e intelligenza artificiale. Puoi utilizzare TensorFlow per una serie di attività, ma è incentrato in modo particolare sull'addestramento e sull'inferenza delle reti neurali profonde. Puoi caricare i modelli TensorFlow addestrati in precedenza in BigQuery come modelli BigQuery ML ed eseguire la previsione in BigQuery ML.
  • TensorFlow Lite è una versione leggera di TensorFlow per il deployment su dispositivi mobili, microcontroller e altri dispositivi edge. TensorFlow ottimizza i modelli TensorFlow esistenti per ridurre le dimensioni dei modelli un'inferenza più veloce.
  • XGBoost è una libreria di boosting del gradiente distribuito ottimizzata progettata per essere altamente efficiente, flessibile e portabile. Implementa algoritmi ML sotto l'incremento del gradiente il modello di machine learning.

Le istruzioni CREATE MODEL per i modelli importati non elaborano alcun byte e non comportano addebiti per BigQuery.

In BigQuery ML, puoi utilizzare un modello con i dati di più set di dati BigQuery per l'addestramento e la previsione.

Guida alla selezione del modello

Questo albero decisionale mappa i modelli ML alle azioni che vuoi realizzare. Scarica l'albero decisionale per la selezione del modello.

BigQuery ML e Vertex AI

BigQuery ML si integra con Vertex AI, la piattaforma end-to-end per l'AI e il ML in Google Cloud. Puoi registrare il tuo di modelli BigQuery ML in Model Registry al fine di eseguire il deployment di questi modelli negli endpoint per la previsione online. Per maggiori informazioni informazioni, consulta le seguenti risorse:

BigQuery ML e Colab Enterprise

Ora puoi usare i blocchi note Colab Enterprise per eseguire attività di ML flussi di lavoro in BigQuery. Notebooks consentono di usare SQL, Python e altri linguaggi e librerie popolari per svolgere le tue attività di ML. Per ulteriori informazioni, vedi Creare notebook.

Aree geografiche supportate

BigQuery ML è supportato nelle stesse regioni in in BigQuery. Per ulteriori informazioni, consulta Località di BigQuery ML.

Prezzi

I modelli BigQuery ML vengono archiviati in set di dati BigQuery come tabelle e viste. Per informazioni sui prezzi di BigQuery ML, consulta Prezzi di BigQuery ML.

Per i prezzi dello spazio di archiviazione BigQuery, consulta Prezzi dello spazio di archiviazione.

Per i prezzi delle query BigQuery ML, consulta Prezzi delle query.

Quote

Oltre ai limiti specifici di BigQuery ML, le query che utilizzano le funzioni e le istruzioni CREATE MODEL di BigQuery ML sono soggette alle quote e ai limiti dei job di query di BigQuery.

Limitazioni

Passaggi successivi