tmp

2025-03-18 14:49:51 -07:00 · 2025-03-18 14:49:51 -07:00 · 2d7e8e82ab
commit 2d7e8e82ab
parent c8245f3ef3
8 changed files with 572 additions and 8 deletions
--- a/fs/fs.go
+++ b/fs/fs.go
@ -0,0 +1,88 @@
+package fs
+
+import (
+	"fmt"
+	"io"
+	"log/slog"
+	"os"
+
+	"github.com/ollama/ollama/fs/ggml"
+)
+
+type DType int
+
+type Model struct {
+	KV      Config
+	Tensors map[string]TensorReader
+}
+
+func (m Model) LogValue() slog.Value {
+	return slog.GroupValue(
+		slog.String("architecture", m.KV.Architecture()),
+	)
+}
+
+type Tensor interface {
+	Name() string
+	Shape() []int
+	DType() DType
+	Size() int
+}
+
+type TensorReader interface {
+	Tensor
+	io.Reader
+}
+
+type shimTensorReader struct {
+	internal *ggml.Tensor
+	*io.SectionReader
+}
+
+func (t *shimTensorReader) Name() string {
+	return t.internal.Name
+}
+
+func (t *shimTensorReader) Shape() []int {
+	shape := make([]int, len(t.internal.Shape))
+	for i, s := range t.internal.Shape {
+		shape[i] = int(s)
+	}
+
+	return shape
+}
+
+func (t *shimTensorReader) Size() int {
+	return int(t.internal.Size())
+}
+
+func (t *shimTensorReader) DType() DType {
+	return DType(t.internal.Kind)
+}
+
+func ReadFrom(f *os.File) (*Model, error) {
+	bts, err := io.ReadAll(io.NewSectionReader(f, 0, 4))
+	if err != nil {
+		return nil, err
+	}
+
+	switch ggml.DetectContentType(bts[:4]) {
+	case "gguf":
+		c, _, err := ggml.Decode(f, -1)
+		if err != nil {
+			return nil, err
+		}
+
+		tensors := make(map[string]TensorReader, len(c.Tensors().Items()))
+		for _, t := range c.Tensors().Items() {
+			tensors[t.Name] = &shimTensorReader{
+				internal:      t,
+				SectionReader: io.NewSectionReader(f, int64(c.Tensors().Offset+t.Offset), int64(t.Size())),
+			}
+		}
+
+		return &Model{KV: c.KV(), Tensors: tensors}, nil
+	default:
+		return nil, fmt.Errorf("unsupported file type")
+	}
+}
--- a/ml/backend/ggml/ggml.go
+++ b/ml/backend/ggml/ggml.go
@ -9,7 +9,9 @@ package ggml
 import "C"

 import (
+	"bytes"
 	"context"
+	"errors"
 	"fmt"
 	"io"
 	"log/slog"
@ -19,6 +21,7 @@ import (
 	"slices"
 	"strconv"
 	"strings"
+	"sync"
 	"sync/atomic"
 	"unicode"
 	"unsafe"
@ -299,6 +302,11 @@ func New(ctx context.Context, r *os.File, params ml.BackendParams) (ml.Backend,

 	var doneBytes atomic.Uint64
 	totalBytes := uint64(n) - meta.Tensors().Offset
+	pool := sync.Pool{
+		New: func() any {
+			return new(bytes.Buffer)
+		},
+	}

 	g, ctx := errgroup.WithContext(ctx)
 	g.SetLimit(runtime.GOMAXPROCS(0))
@ -320,19 +328,32 @@ func New(ctx context.Context, r *os.File, params ml.BackendParams) (ml.Backend,
 			}

 			sr := io.NewSectionReader(r, int64(meta.Tensors().Offset+t.Offset), int64(t.Size()))
-			bts := make([]byte, 128*format.KibiByte)
+			// bts := make([]byte, 128*format.KibiByte)

 			var s uint64
 			for s < t.Size() {
-				n, err := io.ReadFull(sr, bts[:min(len(bts), int(t.Size()-s))])
-				if err != nil {
+				b := pool.Get().(*bytes.Buffer)
+				b.Reset()
+
+				// n, err := io.ReadFull(sr, bts[:min(len(bts), int(t.Size()-s))])
+				// if err != nil {
+				// 	return err
+				// }
+				n, err := io.CopyN(b, sr, 256*format.KibiByte)
+				if n > 0 {
+				} else if errors.Is(err, io.EOF) {
+					break
+				} else if err != nil {
 					return err
 				}

+				bts := b.Bytes()
 				for _, tt := range tts {
 					C.ggml_backend_tensor_set(tt, unsafe.Pointer(&bts[0]), C.size_t(s), C.size_t(n))
 				}

+				pool.Put(b)
+
 				s += uint64(n)

 				if params.Progress != nil {
--- a/ml/backend/ggml/ggml2.go
+++ b/ml/backend/ggml/ggml2.go
@ -0,0 +1,273 @@
+package ggml
+
+// #cgo CPPFLAGS: -I${SRCDIR}/ggml/include
+// #include <stdlib.h>
+// #include <stdint.h>
+// #include "ggml.h"
+// #include "ggml-cpu.h"
+// #include "ggml-backend.h"
+import "C"
+
+import (
+	"bytes"
+	"context"
+	"errors"
+	"io"
+	"log/slog"
+	"runtime"
+	"sync"
+	"unsafe"
+
+	"github.com/ollama/ollama/format"
+	"github.com/ollama/ollama/fs"
+	"github.com/ollama/ollama/ml"
+	ggml "github.com/ollama/ollama/ml/backend/ggml/ggml/src"
+	"golang.org/x/sync/errgroup"
+)
+
+type backend struct {
+	gpus, cpus []*C.struct_ggml_backend_device
+	bufts      map[*C.struct_ggml_backend_device][]*C.struct_ggml_backend_buffer_type
+	ctxs       map[*C.struct_ggml_backend_buffer_type]*C.struct_ggml_context
+	bbs        map[*C.struct_ggml_backend_buffer_type]*C.struct_ggml_backend_buffer
+	readers    map[*C.struct_ggml_tensor]io.Reader
+	reserved   map[*C.struct_ggml_context]uint64
+
+	onceScheduler sync.Once
+	scheduler     *scheduler
+}
+
+var _ ml.Backend2 = (*backend)(nil)
+
+func New2() (ml.Backend2, error) {
+	ggml.OnceLoad()
+
+	var cpus, accels, gpus []*C.struct_ggml_backend_device
+	for i := range C.ggml_backend_dev_count() {
+		d := C.ggml_backend_dev_get(C.size_t(i))
+		switch C.ggml_backend_dev_type(d) {
+		case C.GGML_BACKEND_DEVICE_TYPE_CPU:
+			// only the first cpu device should be used
+			if len(cpus) > 0 {
+				continue
+			}
+
+			cpus = append(cpus, d)
+		case C.GGML_BACKEND_DEVICE_TYPE_ACCEL:
+			accels = append(accels, d)
+		case C.GGML_BACKEND_DEVICE_TYPE_GPU:
+			gpus = append(gpus, d)
+		}
+	}
+
+	bufts := make(map[*C.struct_ggml_backend_device][]*C.struct_ggml_backend_buffer_type)
+
+	cpu := C.ggml_backend_dev_by_type(C.GGML_BACKEND_DEVICE_TYPE_CPU)
+	for _, d := range append(accels, cpus...) {
+		bufts[cpu] = append(bufts[cpu], C.ggml_backend_dev_buffer_type(d))
+	}
+
+	for _, d := range gpus {
+		bufts[d] = append(bufts[d], append([]*C.struct_ggml_backend_buffer_type{C.ggml_backend_dev_buffer_type(d)}, bufts[cpu]...)...)
+	}
+
+	return &backend{
+		// merge accels and cpus
+		gpus:     gpus,
+		cpus:     append(accels, cpus...),
+		bufts:    bufts,
+		ctxs:     make(map[*C.struct_ggml_backend_buffer_type]*C.struct_ggml_context, len(bufts)),
+		bbs:      make(map[*C.struct_ggml_backend_buffer_type]*C.struct_ggml_backend_buffer, len(bufts)),
+		readers:  make(map[*C.struct_ggml_tensor]io.Reader),
+		reserved: make(map[*C.struct_ggml_context]uint64),
+	}, nil
+}
+
+func (b *backend) Close() {
+}
+
+func (b *backend) NewContext() ml.Context {
+	return &Context{
+		b: &Backend{
+			input:  b.bufts[b.cpus[0]][0],
+			output: b.bufts[b.cpus[0]][0],
+			layers: func() map[int]*C.struct_ggml_backend_buffer_type {
+				m := make(map[int]*C.struct_ggml_backend_buffer_type)
+				for i := range 100 {
+					m[i] = b.bufts[b.gpus[0]][0]
+				}
+				return m
+			}(),
+			sched: func() *C.struct_ggml_backend_sched {
+				return b.Scheduler().(*scheduler).s
+			}(),
+			maxGraphNodes: 8192,
+		},
+		ctx: C.ggml_init(C.struct_ggml_init_params{
+			mem_size: C.ggml_tensor_overhead() * C.size_t(4000),
+			no_alloc: true,
+		}),
+		buft:          b.bufts[b.cpus[0]][0],
+		maxGraphNodes: 8192,
+	}
+}
+
+func (b *backend) Get(tensorReader fs.TensorReader, preferredDevice ml.Device) ml.Tensor {
+	var ctx *C.struct_ggml_context
+
+	var devices []*C.struct_ggml_backend_device
+	if preferredDevice == ml.GPU {
+		devices = b.gpus
+	}
+
+	for _, d := range append(devices, b.cpus...) {
+		var free, total C.size_t
+		C.ggml_backend_dev_memory(d, &free, &total)
+
+		for _, buft := range b.bufts[d] {
+			if _, ok := b.ctxs[buft]; !ok {
+				b.ctxs[buft] = C.ggml_init(C.struct_ggml_init_params{
+					mem_size: C.ggml_tensor_overhead() * C.size_t(1000),
+					no_alloc: true,
+				})
+			}
+
+			ctx = b.ctxs[buft]
+			if free > 0 && b.reserved[ctx]+uint64(tensorReader.Size()) >= uint64(free) {
+				slog.Info("no space available", "device", C.GoString(C.ggml_backend_dev_name(d)), "free", format.HumanBytes2(uint64(free)), "total", format.HumanBytes2(uint64(total)), "reserve", format.HumanBytes2(b.reserved[ctx]), "size", format.HumanBytes2(uint64(tensorReader.Size())))
+				continue
+			}
+
+			cname := C.CString(tensorReader.Name())
+			defer C.free(unsafe.Pointer(cname))
+
+			if t := C.ggml_get_tensor(ctx, cname); t != nil {
+				slog.Info("using existing tensor in buffer type", "name", tensorReader.Name(), "buffer_type", C.GoString(C.ggml_backend_buft_name(buft)))
+				return &Tensor{t: t}
+			}
+
+			shape := make([]C.int64_t, len(tensorReader.Shape()))
+			for i, s := range tensorReader.Shape() {
+				shape[i] = C.int64_t(s)
+			}
+
+			t := C.ggml_new_tensor(ctx, uint32(tensorReader.DType()), C.int(len(tensorReader.Shape())), unsafe.SliceData(shape))
+			C.ggml_set_name(t, cname)
+
+			b.readers[t] = tensorReader
+			b.reserved[ctx] += uint64(tensorReader.Size())
+
+			slog.Info("creating new tensor in buffer type", "name", tensorReader.Name(), "buffer_type", C.GoString(C.ggml_backend_buft_name(buft)), "reserve", format.HumanBytes2(b.reserved[ctx]))
+			return &Tensor{t: t}
+		}
+	}
+
+	panic("no device available")
+}
+
+func (b *backend) LoadAll(ctx context.Context) error {
+	// allocate buffers for each context
+	for buft, ctx := range b.ctxs {
+		if C.ggml_get_first_tensor(ctx) == nil {
+			continue
+		}
+
+		bb := C.ggml_backend_alloc_ctx_tensors_from_buft(ctx, buft)
+		C.ggml_backend_buffer_set_usage(bb, C.GGML_BACKEND_BUFFER_USAGE_WEIGHTS)
+		b.bbs[buft] = bb
+	}
+
+	for _, bb := range b.bbs {
+		slog.Info("", "buffer.size", C.ggml_backend_buffer_get_size(bb), "buffer.usage", C.ggml_backend_buffer_get_usage(bb))
+	}
+
+	pool := sync.Pool{
+		New: func() any {
+			return new(bytes.Buffer)
+		},
+	}
+
+	g, ctx := errgroup.WithContext(context.Background())
+	g.SetLimit(runtime.GOMAXPROCS(0))
+	for t, r := range b.readers {
+		g.Go(func() error {
+			var s uint64
+
+			for {
+				b := pool.Get().(*bytes.Buffer)
+				b.Reset()
+
+				n, err := io.CopyN(b, r, 32*format.KibiByte)
+				if n > 0 {
+				} else if errors.Is(err, io.EOF) {
+					break
+				} else if err != nil {
+					return err
+				}
+
+				C.ggml_backend_tensor_set(t, unsafe.Pointer(&b.Bytes()[0]), C.size_t(s), C.size_t(n))
+				pool.Put(b)
+			}
+
+			return nil
+		})
+	}
+
+	go func() {
+		<-ctx.Done()
+		g.Go(func() error {
+			return ctx.Err()
+		})
+	}()
+
+	return g.Wait()
+}
+
+type scheduler struct {
+	s *C.struct_ggml_backend_sched
+}
+
+var (
+	_ ml.Scheduler = (*scheduler)(nil)
+	_ ml.Reserver  = (*scheduler)(nil)
+)
+
+func (b *backend) Scheduler() ml.Scheduler {
+	b.onceScheduler.Do(func() {
+		devices := append(b.gpus, b.cpus...)
+		backends := make([]C.ggml_backend_t, len(devices))
+		bufts := make([]C.ggml_backend_buffer_type_t, len(devices))
+		for i, device := range devices {
+			backend := C.ggml_backend_dev_init(device, nil)
+			buft := C.ggml_backend_get_default_buffer_type(backend)
+			if d := C.ggml_backend_get_device(backend); C.ggml_backend_dev_type(d) == C.GGML_BACKEND_DEVICE_TYPE_CPU && len(b.gpus) > 0 {
+				if hbt := C.ggml_backend_dev_host_buffer_type(b.gpus[0]); hbt != nil {
+					buft = hbt
+				}
+			}
+
+			slog.Info("scheduler", "backend", C.GoString(C.ggml_backend_name(backend)), "buffer_type", C.GoString(C.ggml_backend_buft_name(buft)))
+			backends[i] = backend
+			bufts[i] = buft
+		}
+
+		maxGraphNodes := max(8192, 1)
+		b.scheduler = &scheduler{
+			s: C.ggml_backend_sched_new(
+				unsafe.SliceData(backends),
+				unsafe.SliceData(bufts),
+				C.int(len(backends)),
+				C.size_t(maxGraphNodes),
+				C._Bool(len(b.gpus) > 1),
+			),
+		}
+	})
+
+	return b.scheduler
+}
+
+func (s scheduler) Schedule() {
+}
+
+func (s scheduler) Reserve() {
+}
--- a/ml/backend2.go
+++ b/ml/backend2.go
@ -0,0 +1,25 @@
+package ml
+
+import (
+	"context"
+
+	"github.com/ollama/ollama/fs"
+)
+
+type Device int
+
+const (
+	CPU Device = iota
+	GPU
+)
+
+type Backend2 interface {
+	Close()
+
+	NewContext() Context
+
+	Scheduler() Scheduler
+
+	Get(fs.TensorReader, Device) Tensor
+	LoadAll(context.Context) error
+}
--- a/ml/scheduler.go
+++ b/ml/scheduler.go
@ -0,0 +1,11 @@
+package ml
+
+// Scheduler is an interface that can be implemented by a Backend to schedule resources.
+type Scheduler interface {
+	Schedule()
+}
+
+// Reserver is an optional interface that can be implemented by a Scheduler to reserve resources for the compute graph.
+type Reserver interface {
+	Reserve()
+}
--- a/model/model.go
+++ b/model/model.go
@ -256,16 +256,23 @@ func setPointer(base Base, v reflect.Value, tags []Tag) {
 type Tag struct {
 	Name      string
 	Alternate []string
+	Root      bool
+	Device    ml.Device
 }

 func ParseTags(s string) (tag Tag) {
 	parts := strings.Split(s, ",")
 	if len(parts) > 0 {
 		tag.Name = parts[0]
+		tag.Device = ml.GPU

 		for _, part := range parts[1:] {
 			if value, ok := strings.CutPrefix(part, "alt:"); ok {
 				tag.Alternate = append(tag.Alternate, value)
+			} else if value, ok := strings.CutPrefix(part, "root:"); ok {
+				tag.Root, _ = strconv.ParseBool(value)
+			} else if part == "cpu" {
+				tag.Device = ml.CPU
 			}
 		}
 	}
--- a/model/model2.go
+++ b/model/model2.go
@ -0,0 +1,139 @@
+package model
+
+import (
+	"fmt"
+	"reflect"
+	"strconv"
+	"strings"
+
+	"github.com/ollama/ollama/fs"
+	"github.com/ollama/ollama/ml"
+)
+
+type Model2 struct {
+	ml.Backend2
+	Model
+}
+
+func New2(cfg *fs.Model, b ml.Backend2) (*Model2, error) {
+	fn, ok := models[cfg.KV.Architecture()]
+	if !ok {
+		return nil, fmt.Errorf("unsupported model architecture %q", cfg.KV.Architecture())
+	}
+
+	m, err := fn(cfg.KV)
+	if err != nil {
+		return nil, err
+	}
+
+	// TODO: load tensors from the model into the backend
+	v := reflect.ValueOf(m)
+	v.Elem().Set(temp(b, cfg.Tensors, v.Elem()))
+
+	if r, ok := b.Scheduler().(ml.Reserver); ok {
+		// TODO: build a graph of the model and reserve the necessary resources
+		r.Reserve()
+	}
+
+	return &Model2{b, m}, nil
+}
+
+func temp(b ml.Backend2, tensors map[string]fs.TensorReader, v reflect.Value, tags ...Tag) reflect.Value {
+	t := v.Type()
+	if t.Kind() != reflect.Struct {
+		return v
+	}
+
+	allNil := true
+	for i := range t.NumField() {
+		tt := t.Field(i).Type
+		vv := v.Field(i)
+		if !vv.CanSet() {
+			continue
+		}
+
+		tagsCopy := tags
+		if s := t.Field(i).Tag.Get("gguf"); s != "" {
+			tag := ParseTags(s)
+			if tag.Root {
+				tagsCopy = []Tag{tag}
+			} else {
+				tagsCopy = append(tagsCopy, ParseTags(s))
+			}
+		}
+
+		switch {
+		case tt == reflect.TypeOf((*ml.Tensor)(nil)).Elem():
+			var permute func([]Tag) [][]string
+			permute = func(tags []Tag) (values [][]string) {
+				if len(tags) < 1 {
+					return nil
+				}
+
+				values = [][]string{{tags[0].Name}}
+				for _, alt := range tags[0].Alternate {
+					values = append(values, []string{alt})
+				}
+
+				for i, value := range values {
+					for _, rest := range permute(tags[1:]) {
+						value = append(value, rest...)
+					}
+
+					values[i] = value
+				}
+
+				return values
+			}
+
+			names := permute(tagsCopy)
+			for _, name := range names {
+				if tensor, ok := tensors[strings.Join(name, ".")]; ok {
+					vv.Set(reflect.ValueOf(b.Get(tensor, tags[0].Device)))
+					break
+				}
+			}
+		case tt.Kind() == reflect.Pointer || tt.Kind() == reflect.Interface:
+			setPointer2(b, tensors, vv, tagsCopy)
+		case tt.Kind() == reflect.Slice || tt.Kind() == reflect.Array:
+			for i := vv.Len() - 1; i >= 0; i-- {
+				vvv := vv.Index(i)
+				if vvv.Kind() == reflect.Pointer || vvv.Kind() == reflect.Interface {
+					setPointer2(b, tensors, vvv, append(tagsCopy, Tag{Name: strconv.Itoa(i)}))
+				} else {
+					vvv.Set(temp(b, tensors, vvv, append(tagsCopy, Tag{Name: strconv.Itoa(i)})...))
+				}
+			}
+		}
+
+		if !canNil(tt) || !vv.IsNil() {
+			allNil = false
+		}
+	}
+
+	if allNil {
+		return reflect.Zero(t)
+	}
+
+	return v
+}
+
+func setPointer2(b ml.Backend2, tensors map[string]fs.TensorReader, v reflect.Value, tags []Tag) {
+	vv := v
+	if v.Kind() == reflect.Interface {
+		if v.IsNil() {
+			return
+		}
+
+		vv = vv.Elem()
+	}
+
+	vv = vv.Elem()
+	if v.IsNil() {
+		vv = reflect.New(v.Type().Elem()).Elem()
+	}
+
+	if f := temp(b, tensors, vv, tags...); f.CanAddr() {
+		v.Set(f.Addr())
+	}
+}
--- a/model/models/llama/model.go
+++ b/model/models/llama/model.go
@ -23,7 +23,7 @@ type Model struct {
 	model.Base
 	model.BytePairEncoding

-	TokenEmbedding *nn.Embedding `gguf:"token_embd"`
+	TokenEmbedding *nn.Embedding `gguf:"token_embd,cpu"`
 	Layers         []Layer       `gguf:"blk"`
 	OutputNorm     *nn.RMSNorm   `gguf:"output_norm"`
 	Output         *nn.Linear    `gguf:"output,alt:token_embd"`
@ -61,7 +61,7 @@ func New(c fs.Config) (model.Model, error) {
 		},
 	}

-	m.Cache = kvcache.NewCausalCache(m.Shift)
+	// m.Cache = kvcache.NewCausalCache(m.Shift)

 	return &m, nil
 }
@ -71,7 +71,7 @@ type SelfAttention struct {
 	Key         *nn.Linear `gguf:"attn_k"`
 	Value       *nn.Linear `gguf:"attn_v"`
 	Output      *nn.Linear `gguf:"attn_output"`
-	RopeFactors ml.Tensor  `gguf:"rope_freqs.weight"`
+	RopeFactors ml.Tensor  `gguf:"rope_freqs.weight,root:true"`
 }

 func (sa *SelfAttention) Forward(ctx ml.Context, hiddenState, positionIDs ml.Tensor, cache kvcache.Cache, opts *Options) ml.Tensor {
@ -91,7 +91,7 @@ func (sa *SelfAttention) Forward(ctx ml.Context, hiddenState, positionIDs ml.Ten
 	v = v.Reshape(ctx, headDim, opts.numKVHeads, batchSize)

 	scaleFactor := 1.0 / math.Sqrt(float64(headDim))
-	kqv := nn.Attention(ctx, q, k, v, scaleFactor, cache)
+	kqv := nn.Attention(ctx, q, k, v, scaleFactor, nil)
 	kqv = kqv.Reshape(ctx, opts.hiddenSize, batchSize)

 	return sa.Output.Forward(ctx, kqv)
@ -154,7 +154,7 @@ func (m *Model) Forward(ctx ml.Context, batch input.Batch) (ml.Tensor, error) {
 	hiddenState := m.TokenEmbedding.Forward(ctx, batch.Inputs)

 	for i, layer := range m.Layers {
-		m.Cache.SetLayer(i)
+		// m.Cache.SetLayer(i)

 		var lastLayerOutputs ml.Tensor
 		if i == len(m.Layers)-1 {