refactor: drops SDK schema use in image generation (#1628)

mathetake · web-flow · commit d33eec2d8026 · 2025-12-06T17:04:00.000Z
diff --git a/internal/apischema/openai/openai.go b/internal/apischema/openai/openai.go
@@ -1900,3 +1900,99 @@ type Usage struct {
 	// Only populated for /v1/chat/completions endpoint, not for /v1/completions.
 	PromptTokensDetails *PromptTokensDetails `json:"prompt_tokens_details,omitempty"` //nolint:tagliatelle //follow openai api
 }
+
+// ImageGenerationRequest represents the request body for /v1/images/generations.
+// https://platform.openai.com/docs/api-reference/images/create
+type ImageGenerationRequest struct {
+	// A text description of the desired image(s). The maximum length is 1000 characters for DALL-E 2,
+	// 4000 characters for DALL-E 3, and 32000 characters for gpt-image-1.
+	Prompt string `json:"prompt"`
+	// The model to use for image generation. Defaults to dall-e-2.
+	Model string `json:"model,omitempty"`
+	// The number of images to generate. Must be between 1 and 10. For DALL-E 3, only n=1 is supported.
+	// Defaults to 1.
+	N int `json:"n,omitempty"`
+	// The quality of the image that will be generated.
+	// - hd or standard for DALL-E 3.
+	// - high, medium, or low for gpt-image-1.
+	// Defaults to standard for DALL-E 3, auto for gpt-image-1.
+	Quality string `json:"quality,omitempty"`
+	// The format in which the generated images are returned. Must be one of url or b64_json.
+	// URLs are only valid for 60 minutes after the image has been generated.
+	// This parameter isn't supported for gpt-image-1 which will always return base64-encoded images.
+	// Defaults to url.
+	ResponseFormat string `json:"response_format,omitempty"`
+	// The size of the generated images.
+	// - DALL-E 2: 256x256, 512x512, or 1024x1024.
+	// - DALL-E 3: 1024x1024, 1792x1024, or 1024x1792.
+	// - gpt-image-1: 1024x1024, 1536x1024, 1024x1536, or auto.
+	// Defaults to 1024x1024 (DALL-E 2/3) or auto (gpt-image-1).
+	Size string `json:"size,omitempty"`
+	// The style of the generated images. vivid or natural. DALL-E 3 only.
+	// Defaults to vivid.
+	Style string `json:"style,omitempty"`
+	// A unique identifier representing your end-user, which can help OpenAI to monitor and detect abuse.
+	User string `json:"user,omitempty"`
+	// The output format of the image generation. Either png, webp, or jpeg.
+	// This parameter is only supported for gpt-image-1.
+	// Defaults to png.
+	OutputFormat string `json:"output_format,omitempty"`
+	// The background parameter used for the image generation. Either transparent, opaque, or auto.
+	// This parameter is only supported for gpt-image-1.
+	// Defaults to auto.
+	Background string `json:"background,omitempty"`
+	// Control the content-moderation level for images generated by gpt-image-1. Must be either low or auto.
+	// Defaults to auto.
+	Moderation string `json:"moderation,omitempty"`
+	// The compression level (0-100%) for the generated images.
+	// This parameter is only supported for gpt-image-1 with the webp or jpeg output formats.
+	// Defaults to 100.
+	OutputCompression *int `json:"output_compression,omitempty"`
+	// The number of partial images to generate.
+	// This parameter is used for streaming responses that return partial images. Value must be between 0 and 3.
+	// Defaults to 0.
+	PartialImages int `json:"partial_images,omitempty"`
+	// Generate the image in streaming mode.
+	// This parameter is only supported for gpt-image-1.
+	// Defaults to false.
+	Stream bool `json:"stream,omitempty"`
+}
+
+// ImageGenerationInputTokensDetails breakdown of tokens used in the prompt for image generation.
+type ImageGenerationInputTokensDetails struct {
+	TextTokens  int `json:"text_tokens,omitempty"`
+	ImageTokens int `json:"image_tokens,omitempty"`
+}
+
+// ImageGenerationUsage represents the usage information for image generation requests.
+type ImageGenerationUsage struct {
+	TotalTokens        int                                `json:"total_tokens"`
+	InputTokens        int                                `json:"input_tokens"`
+	OutputTokens       int                                `json:"output_tokens"`
+	InputTokensDetails *ImageGenerationInputTokensDetails `json:"input_tokens_details,omitempty"`
+}
+
+// ImageGenerationResponse represents the response body for /v1/images/generations.
+// https://platform.openai.com/docs/api-reference/images/object
+type ImageGenerationResponse struct {
+	// The Unix timestamp (in seconds) of when the image was created.
+	Created int64 `json:"created"`
+	// The list of generated images.
+	Data []ImageGenerationResponseData `json:"data"`
+	// For gpt-image-1 only, the token usage information for the image generation.
+	Usage *ImageGenerationUsage `json:"usage,omitempty"`
+	// The output format of the image generation. Either png, webp, or jpeg.
+	OutputFormat string `json:"output_format,omitempty"`
+	// The quality of the image generated. Either low, medium, or high.
+	Quality string `json:"quality,omitempty"`
+	// The size of the image generated. Either 1024x1024, 1024x1536, or 1536x1024.
+	Size string `json:"size,omitempty"`
+	// The background parameter used for the image generation. Either transparent or opaque.
+	Background string `json:"background,omitempty"`
+}
+
+type ImageGenerationResponseData struct {
+	B64JSON       string `json:"b64_json,omitempty"`
+	URL           string `json:"url,omitempty"`
+	RevisedPrompt string `json:"revised_prompt,omitempty"`
+}
diff --git a/internal/endpointspec/endpointspec.go b/internal/endpointspec/endpointspec.go
@@ -11,7 +11,6 @@ import (
 	"encoding/json"
 	"fmt"
 
-	openaisdk "github.com/openai/openai-go/v2"
 	"github.com/tidwall/sjson"
 
 	"github.com/envoyproxy/ai-gateway/internal/apischema/anthropic"
@@ -173,8 +172,8 @@ func (EmbeddingsEndpointSpec) GetTranslator(schema filterapi.VersionedAPISchema,
 func (ImageGenerationEndpointSpec) ParseBody(
 	body []byte,
 	_ bool,
-) (internalapi.OriginalModel, *openaisdk.ImageGenerateParams, bool, []byte, error) {
-	var openAIReq openaisdk.ImageGenerateParams
+) (internalapi.OriginalModel, *openai.ImageGenerationRequest, bool, []byte, error) {
+	var openAIReq openai.ImageGenerationRequest
 	if err := json.Unmarshal(body, &openAIReq); err != nil {
 		return "", nil, false, nil, fmt.Errorf("failed to unmarshal image generation request: %w", err)
 	}
diff --git a/internal/tracing/api/api.go b/internal/tracing/api/api.go
@@ -10,7 +10,6 @@ package api
 import (
 	"context"
 
-	openaisdk "github.com/openai/openai-go/v2"
 	"go.opentelemetry.io/otel/propagation"
 	"go.opentelemetry.io/otel/trace"
 
@@ -61,7 +60,7 @@ type (
 	// EmbeddingsTracer creates spans for OpenAI embeddings requests.
 	EmbeddingsTracer = RequestTracer[openai.EmbeddingRequest, openai.EmbeddingResponse, struct{}]
 	// ImageGenerationTracer creates spans for OpenAI image generation requests.
-	ImageGenerationTracer = RequestTracer[openaisdk.ImageGenerateParams, openaisdk.ImagesResponse, struct{}]
+	ImageGenerationTracer = RequestTracer[openai.ImageGenerationRequest, openai.ImageGenerationResponse, struct{}]
 	// RerankTracer creates spans for rerank requests.
 	RerankTracer = RequestTracer[cohere.RerankV2Request, cohere.RerankV2Response, struct{}]
 	// MessageTracer creates spans for Anthropic messages requests.
@@ -88,7 +87,7 @@ type (
 	// EmbeddingsSpan represents an OpenAI embeddings request. The chunk type is unused and therefore set to struct{}.
 	EmbeddingsSpan = Span[openai.EmbeddingResponse, struct{}]
 	// ImageGenerationSpan represents an OpenAI image generation.
-	ImageGenerationSpan = Span[openaisdk.ImagesResponse, struct{}]
+	ImageGenerationSpan = Span[openai.ImageGenerationResponse, struct{}]
 	// RerankSpan represents a rerank request span.
 	RerankSpan = Span[cohere.RerankV2Response, struct{}]
 	// MessageSpan represents an Anthropic messages request span.
@@ -127,7 +126,7 @@ type (
 	// Note: Completion streaming chunks are full CompletionResponse objects, not deltas like chat completions.
 	CompletionRecorder = SpanRecorder[openai.CompletionRequest, openai.CompletionResponse, openai.CompletionResponse]
 	// ImageGenerationRecorder records attributes to a span according to a semantic convention.
-	ImageGenerationRecorder = SpanRecorder[openaisdk.ImageGenerateParams, openaisdk.ImagesResponse, struct{}]
+	ImageGenerationRecorder = SpanRecorder[openai.ImageGenerationRequest, openai.ImageGenerationResponse, struct{}]
 	// EmbeddingsRecorder records attributes to a span according to a semantic convention.
 	EmbeddingsRecorder = SpanRecorder[openai.EmbeddingRequest, openai.EmbeddingResponse, struct{}]
 	// RerankRecorder records attributes to a span according to a semantic convention.
@@ -193,7 +192,7 @@ type (
 	// NoopEmbeddingsTracer implements EmbeddingsTracer.
 	NoopEmbeddingsTracer = NoopTracer[openai.EmbeddingRequest, openai.EmbeddingResponse, struct{}]
 	// NoopImageGenerationTracer implements ImageGenerationTracer.
-	NoopImageGenerationTracer = NoopTracer[openaisdk.ImageGenerateParams, openaisdk.ImagesResponse, struct{}]
+	NoopImageGenerationTracer = NoopTracer[openai.ImageGenerationRequest, openai.ImageGenerationResponse, struct{}]
 	// NoopRerankTracer implements RerankTracer.
 	NoopRerankTracer = NoopTracer[cohere.RerankV2Request, cohere.RerankV2Response, struct{}]
 	// NoopMessageTracer implements MessageTracer.
diff --git a/internal/tracing/openinference/openai/image_generation.go b/internal/tracing/openinference/openai/image_generation.go
@@ -10,11 +10,11 @@ package openai
 import (
 	"encoding/json"
 
-	openaisdk "github.com/openai/openai-go/v2"
 	"go.opentelemetry.io/otel/attribute"
 	"go.opentelemetry.io/otel/codes"
 	"go.opentelemetry.io/otel/trace"
 
+	"github.com/envoyproxy/ai-gateway/internal/apischema/openai"
 	tracing "github.com/envoyproxy/ai-gateway/internal/tracing/api"
 	"github.com/envoyproxy/ai-gateway/internal/tracing/openinference"
 )
@@ -52,17 +52,17 @@ func NewImageGenerationRecorder(config *openinference.TraceConfig) tracing.Image
 var imageGenStartOpts = []trace.SpanStartOption{trace.WithSpanKind(trace.SpanKindInternal)}
 
 // StartParams implements the same method as defined in tracing.ImageGenerationRecorder.
-func (r *ImageGenerationRecorder) StartParams(*openaisdk.ImageGenerateParams, []byte) (spanName string, opts []trace.SpanStartOption) {
+func (r *ImageGenerationRecorder) StartParams(*openai.ImageGenerationRequest, []byte) (spanName string, opts []trace.SpanStartOption) {
 	return "ImagesResponse", imageGenStartOpts
 }
 
 // RecordRequest implements the same method as defined in tracing.ImageGenerationRecorder.
-func (r *ImageGenerationRecorder) RecordRequest(span trace.Span, req *openaisdk.ImageGenerateParams, body []byte) {
+func (r *ImageGenerationRecorder) RecordRequest(span trace.Span, req *openai.ImageGenerationRequest, body []byte) {
 	span.SetAttributes(buildImageGenerationRequestAttributes(req, string(body), r.traceConfig)...)
 }
 
 // RecordResponse implements the same method as defined in tracing.ImageGenerationRecorder.
-func (r *ImageGenerationRecorder) RecordResponse(span trace.Span, resp *openaisdk.ImagesResponse) {
+func (r *ImageGenerationRecorder) RecordResponse(span trace.Span, resp *openai.ImageGenerationResponse) {
 	// Set output attributes.
 	var attrs []attribute.KeyValue
 	bodyString := openinference.RedactedValue
@@ -85,7 +85,7 @@ func (r *ImageGenerationRecorder) RecordResponseOnError(span trace.Span, statusC
 }
 
 // buildImageGenerationRequestAttributes builds OpenInference attributes from the image generation request.
-func buildImageGenerationRequestAttributes(_ *openaisdk.ImageGenerateParams, body string, config *openinference.TraceConfig) []attribute.KeyValue {
+func buildImageGenerationRequestAttributes(_ *openai.ImageGenerationRequest, body string, config *openinference.TraceConfig) []attribute.KeyValue {
 	attrs := []attribute.KeyValue{
 		attribute.String(openinference.SpanKind, openinference.SpanKindLLM),
 		attribute.String(openinference.LLMSystem, openinference.LLMSystemOpenAI),
diff --git a/internal/tracing/openinference/openai/image_generation_config_test.go b/internal/tracing/openinference/openai/image_generation_config_test.go
@@ -8,13 +8,13 @@ package openai
 import (
 	"testing"
 
-	openaisdk "github.com/openai/openai-go/v2"
 	"github.com/stretchr/testify/require"
 	"go.opentelemetry.io/otel/attribute"
 	"go.opentelemetry.io/otel/codes"
 	"go.opentelemetry.io/otel/sdk/trace"
 	oteltrace "go.opentelemetry.io/otel/trace"
 
+	"github.com/envoyproxy/ai-gateway/internal/apischema/openai"
 	"github.com/envoyproxy/ai-gateway/internal/testing/testotel"
 	"github.com/envoyproxy/ai-gateway/internal/tracing/openinference"
 )
@@ -23,7 +23,7 @@ func TestImageGenerationRecorder_WithConfig_HideInputs(t *testing.T) {
 	tests := []struct {
 		name          string
 		config        *openinference.TraceConfig
-		req           *openaisdk.ImageGenerateParams
+		req           *openai.ImageGenerationRequest
 		reqBody       []byte
 		expectedAttrs []attribute.KeyValue
 	}{
diff --git a/internal/tracing/openinference/openai/image_generation_test.go b/internal/tracing/openinference/openai/image_generation_test.go
@@ -8,34 +8,32 @@ package openai
 import (
 	"testing"
 
-	openaisdk "github.com/openai/openai-go/v2"
-	openaiparam "github.com/openai/openai-go/v2/packages/param"
 	"github.com/stretchr/testify/require"
 	"go.opentelemetry.io/otel/attribute"
 	"go.opentelemetry.io/otel/codes"
 	"go.opentelemetry.io/otel/sdk/trace"
 	oteltrace "go.opentelemetry.io/otel/trace"
 
+	"github.com/envoyproxy/ai-gateway/internal/apischema/openai"
 	"github.com/envoyproxy/ai-gateway/internal/testing/testotel"
 	tracing "github.com/envoyproxy/ai-gateway/internal/tracing/api"
 	"github.com/envoyproxy/ai-gateway/internal/tracing/openinference"
 )
 
 var (
-	basicImageReq = &openaisdk.ImageGenerateParams{
-		Model:          openaisdk.ImageModelGPTImage1,
+	basicImageReq = &openai.ImageGenerationRequest{
+		Model:          "gpt-image-1",
 		Prompt:         "a hummingbird",
-		Size:           openaisdk.ImageGenerateParamsSize1024x1024,
-		Quality:        openaisdk.ImageGenerateParamsQualityHigh,
-		ResponseFormat: openaisdk.ImageGenerateParamsResponseFormatB64JSON,
-		N:              openaiparam.NewOpt[int64](1),
+		Size:           "1024x1024",
+		Quality:        "hd",
+		ResponseFormat: "b64_json",
+		N:              1,
 	}
 	basicImageReqBody = mustJSON(basicImageReq)
 
-	basicImageResp = &openaisdk.ImagesResponse{
-		Data: []openaisdk.Image{{URL: "https://example.com/img.png"}},
-		Size: openaisdk.ImagesResponseSize1024x1024,
-		Usage: openaisdk.ImagesResponseUsage{
+	basicImageResp = &openai.ImageGenerationResponse{
+		Data: []openai.ImageGenerationResponseData{{URL: "https://example.com/img.png"}},
+		Usage: &openai.ImageGenerationUsage{
 			InputTokens:  8,
 			OutputTokens: 1056,
 			TotalTokens:  1064,
@@ -47,7 +45,7 @@ var (
 func TestImageGenerationRecorder_StartParams(t *testing.T) {
 	tests := []struct {
 		name             string
-		req              *openaisdk.ImageGenerateParams
+		req              *openai.ImageGenerationRequest
 		reqBody          []byte
 		expectedSpanName string
 	}{
@@ -75,7 +73,7 @@ func TestImageGenerationRecorder_StartParams(t *testing.T) {
 func TestImageGenerationRecorder_RecordRequest(t *testing.T) {
 	tests := []struct {
 		name          string
-		req           *openaisdk.ImageGenerateParams
+		req           *openai.ImageGenerationRequest
 		reqBody       []byte
 		config        *openinference.TraceConfig
 		expectedAttrs []attribute.KeyValue
@@ -138,7 +136,7 @@ func TestImageGenerationRecorder_RecordRequest(t *testing.T) {
 func TestImageGenerationRecorder_RecordResponse(t *testing.T) {
 	tests := []struct {
 		name           string
-		resp           *openaisdk.ImagesResponse
+		resp           *openai.ImageGenerationResponse
 		config         *openinference.TraceConfig
 		expectedAttrs  []attribute.KeyValue
 		expectedEvents []trace.Event
diff --git a/internal/tracing/span.go b/internal/tracing/span.go
@@ -6,7 +6,6 @@
 package tracing
 
 import (
-	openaisdk "github.com/openai/openai-go/v2"
 	"go.opentelemetry.io/otel/trace"
 
 	anthropicschema "github.com/envoyproxy/ai-gateway/internal/apischema/anthropic"
@@ -50,7 +49,7 @@ type (
 	chatCompletionSpan  = span[openai.ChatCompletionResponse, openai.ChatCompletionResponseChunk]
 	completionSpan      = span[openai.CompletionResponse, openai.CompletionResponse]
 	embeddingsSpan      = span[openai.EmbeddingResponse, struct{}]
-	imageGenerationSpan = span[openaisdk.ImagesResponse, struct{}]
+	imageGenerationSpan = span[openai.ImageGenerationResponse, struct{}]
 	rerankSpan          = span[cohereschema.RerankV2Response, struct{}]
 	messageSpan         = span[anthropicschema.MessagesResponse, anthropicschema.MessagesStreamChunk]
 )
diff --git a/internal/tracing/tracer.go b/internal/tracing/tracer.go
@@ -8,7 +8,6 @@ package tracing
 import (
 	"context"
 
-	openaisdk "github.com/openai/openai-go/v2"
 	"go.opentelemetry.io/otel/attribute"
 	"go.opentelemetry.io/otel/propagation"
 	"go.opentelemetry.io/otel/trace"
@@ -43,7 +42,7 @@ type (
 	chatCompletionTracer  = requestTracerImpl[openai.ChatCompletionRequest, openai.ChatCompletionResponse, openai.ChatCompletionResponseChunk]
 	embeddingsTracer      = requestTracerImpl[openai.EmbeddingRequest, openai.EmbeddingResponse, struct{}]
 	completionTracer      = requestTracerImpl[openai.CompletionRequest, openai.CompletionResponse, openai.CompletionResponse]
-	imageGenerationTracer = requestTracerImpl[openaisdk.ImageGenerateParams, openaisdk.ImagesResponse, struct{}]
+	imageGenerationTracer = requestTracerImpl[openai.ImageGenerationRequest, openai.ImageGenerationResponse, struct{}]
 	rerankTracer          = requestTracerImpl[cohereschema.RerankV2Request, cohereschema.RerankV2Response, struct{}]
 )
 
diff --git a/internal/tracing/tracer_test.go b/internal/tracing/tracer_test.go
@@ -11,7 +11,6 @@ import (
 	"fmt"
 	"testing"
 
-	openaisdk "github.com/openai/openai-go/v2"
 	"github.com/stretchr/testify/require"
 	"go.opentelemetry.io/contrib/propagators/autoprop"
 	"go.opentelemetry.io/otel/attribute"
@@ -339,14 +338,14 @@ func TestNewImageGenerationTracer_BuildsGenericRequestTracer(t *testing.T) {
 
 	tracer := newImageGenerationTracer(tp.Tracer("test"), autoprop.NewTextMapPropagator(), testImageGenerationRecorder{})
 	impl, ok := tracer.(*requestTracerImpl[
-		openaisdk.ImageGenerateParams,
-		openaisdk.ImagesResponse,
+		openai.ImageGenerationRequest,
+		openai.ImageGenerationResponse,
 		struct{},
 	])
 	require.True(t, ok)
 	require.Nil(t, impl.headerAttributes)
 	require.NotNil(t, impl.newSpan)
-	s := tracer.StartSpanAndInjectHeaders(context.Background(), nil, propagation.MapCarrier{}, &openaisdk.ImageGenerateParams{}, []byte("{}"))
+	s := tracer.StartSpanAndInjectHeaders(context.Background(), nil, propagation.MapCarrier{}, &openai.ImageGenerationRequest{}, []byte("{}"))
 	require.IsType(t, (*imageGenerationSpan)(nil), s)
 }
 
@@ -448,19 +447,19 @@ type testImageGenerationRecorder struct {
 	tracing.NoopChunkRecorder[struct{}]
 }
 
-func (r testImageGenerationRecorder) StartParams(_ *openaisdk.ImageGenerateParams, _ []byte) (string, []oteltrace.SpanStartOption) {
+func (r testImageGenerationRecorder) StartParams(_ *openai.ImageGenerationRequest, _ []byte) (string, []oteltrace.SpanStartOption) {
 	return "ImagesResponse", nil
 }
 
-func (r testImageGenerationRecorder) RecordRequest(span oteltrace.Span, req *openaisdk.ImageGenerateParams, _ []byte) {
+func (r testImageGenerationRecorder) RecordRequest(span oteltrace.Span, req *openai.ImageGenerationRequest, _ []byte) {
 	span.SetAttributes(
 		attribute.String("model", req.Model),
 		attribute.String("prompt", req.Prompt),
-		attribute.String("size", string(req.Size)),
+		attribute.String("size", req.Size),
 	)
 }
 
-func (r testImageGenerationRecorder) RecordResponse(span oteltrace.Span, resp *openaisdk.ImagesResponse) {
+func (r testImageGenerationRecorder) RecordResponse(span oteltrace.Span, resp *openai.ImageGenerationResponse) {
 	respBytes, _ := json.Marshal(resp)
 	span.SetAttributes(
 		attribute.Int("statusCode", 200),
diff --git a/internal/tracing/tracing_test.go b/internal/tracing/tracing_test.go
diff --git a/internal/translator/imagegeneration_openai_openai.go b/internal/translator/imagegeneration_openai_openai.go
diff --git a/internal/translator/imagegeneration_openai_openai_test.go b/internal/translator/imagegeneration_openai_openai_test.go
diff --git a/internal/translator/translator.go b/internal/translator/translator.go