RAG with Postgres, Drizzle, and pgvector

May 15, 2026

Every RAG tutorial opens with Pinecone. Then LangChain. Then Python. You close the tab.

pgvector is one CREATE EXTENSION away. If you already run Postgres, you already have a vector store. This post builds the whole pipeline in TypeScript with Drizzle: schema, ingestion, cosine retrieval, hybrid search with Reciprocal Rank Fusion, generation, and a retrieval eval you can actually run. No new services.

Schema

One table. Keep it simple until you have a reason not to.

// src/db/schema.ts
import {
	index,
	jsonb,
	pgTable,
	serial,
	text,
	vector,
} from "drizzle-orm/pg-core";
 
export const documents = pgTable(
	"documents",
	{
		id: serial("id").primaryKey(),
		content: text("content").notNull(),
		embedding: vector("embedding", { dimensions: 1536 }),
		metadata: jsonb(

Join My Newsletter

Occasional notes on software, tools, and things I learn. No spam.

Unsubscribe anytime.

import { encoding_for_model } from "tiktoken";
 
interface Chunk {
	content: string;
	chunkIndex: number;
}
 
export function chunkText(
	text: string,
	chunkSize = 512,
	overlap = 50,
): Chunk[] {
	const enc = encoding_for_model("text-embedding-3-small");
	const tokens = enc.encode(text);
	const chunks: Chunk[] = [];
	let i = 0;
 
	while (i < tokens.length) {
		const chunkTokens = tokens.slice(i, i + chunkSize);
		chunks.push({
			content: new TextDecoder().decode(enc.decode(chunkTokens)),
			chunkIndex: chunks.length,
		});
		i += chunkSize - overlap;
	}
 
	enc.free();
	return chunks;
}

import OpenAI from "openai";
import { db } from "./db";
import { documents } from "./db/schema";
import { chunkText } from "./chunker";
 
const openai = new OpenAI();
 
async function embedBatch(texts: string[]): Promise<number[][]> {
	const res = await openai.embeddings.create({
		model: "text-embedding-3-small",
		input: texts,
	});
	return res.data.map((d) => d.embedding);
}
 
export async function ingestDocument(
	text: string,
	source: string,
	title?: string,
) {
	const chunks = chunkText(text);
	const BATCH_SIZE = 100;
 
	for (let i = 0; i < chunks.length; i += BATCH_SIZE) {
		const batch = chunks.slice(i, i + BATCH_SIZE);
		const embeddings = await embedBatch(batch.map((c) => c.content));
 
		await db.insert(documents).values(
			batch.map((chunk, j) => ({
				content: chunk.content,
				embedding: embeddings[j],
				metadata: { source, title, chunkIndex: chunk.chunkIndex },
			})),
		);
	}
}

import { cosineDistance, sql } from "drizzle-orm";
import { db } from "./db";
import { documents } from "./db/schema";
 
export async function retrieve(query: string, k = 5, source?: string) {
	const [{ embedding: queryEmbedding }] = (
		await openai.embeddings.create({
			model: "text-embedding-3-small",
			input: [query],
		})
	).data;
 
	const similarity = sql<number>`1 - (${cosineDistance(documents.embedding, queryEmbedding)})`;
 
	return db
		.select({
			id: documents.id,
			content: documents.content,
			metadata: documents.metadata,
			similarity,
		})
		.from(documents)
		.where(
			source ? sql`${documents.metadata}->>'source' = ${source}` : undefined,
		)
		.orderBy((t) => sql`${t.similarity} DESC`)
		.limit(k);
}

rrf_score = 1 / (k + rank)

WITH vector_results AS (
  SELECT id,
         ROW_NUMBER() OVER (ORDER BY embedding <=> $1) AS rank
  FROM documents
  WHERE metadata->>'source' = $2
  ORDER BY embedding <=> $1
  LIMIT 60
),
fts_results AS (
  SELECT id,
         ROW_NUMBER() OVER (ORDER BY ts_rank(to_tsvector('english', content), query) DESC) AS rank
  FROM documents,
       plainto_tsquery('english', $3) query
  WHERE to_tsvector('english', content) @@ query
    AND metadata->>'source' = $2
  ORDER BY rank
  LIMIT 60
),
rrf AS (
  SELECT
    COALESCE(v.id, f.id) AS id,
    COALESCE(1.0 / (60 + v.rank), 0) + COALESCE(1.0 / (60 + f.rank), 0) AS score
  FROM vector_results v
  FULL OUTER JOIN fts_results f ON v.id = f.id
)
SELECT d.id, d.content, d.metadata, rrf.score
FROM rrf
JOIN documents d ON d.id = rrf.id
ORDER BY rrf.score DESC
LIMIT $4;

export async function hybridSearch(query: string, source: string, k = 10) {
	const [{ embedding: queryEmbedding }] = (
		await openai.embeddings.create({
			model: "text-embedding-3-small",
			input: [query],
		})
	).data;
 
	const vectorParam = JSON.stringify(queryEmbedding);
 
	return db.execute(sql`
    WITH vector_results AS (
      SELECT id,
             ROW_NUMBER() OVER (ORDER BY embedding <=> ${vectorParam}::vector) AS rank
      FROM documents
      WHERE metadata->>'source' = ${source}
      ORDER BY embedding <=> ${vectorParam}::vector
      LIMIT 60
    ),
    fts_results AS (
      SELECT id,
             ROW_NUMBER() OVER (
               ORDER BY ts_rank(to_tsvector('english', content),
                         plainto_tsquery('english', ${query})) DESC
             ) AS rank
      FROM documents
      WHERE to_tsvector('english', content) @@ plainto_tsquery('english', ${query})
        AND metadata->>'source' = ${source}
      LIMIT 60
    ),
    rrf AS (
      SELECT
        COALESCE(v.id, f.id) AS id,
        COALESCE(1.0 / (60 + v.rank), 0) + COALESCE(1.0 / (60 + f.rank), 0) AS score
      FROM vector_results v
      FULL OUTER JOIN fts_results f ON v.id = f.id
    )
    SELECT d.id, d.content, d.metadata, rrf.score
    FROM rrf
    JOIN documents d ON d.id = rrf.id
    ORDER BY rrf.score DESC
    LIMIT ${k}
  `);
}

import Anthropic from "@anthropic-ai/sdk";
 
const client = new Anthropic();
 
export async function answer(query: string, source?: string) {
	const chunks = await retrieve(query, 5, source);
 
	if (chunks.length === 0) {
		return { answer: "No relevant information found.", citations: [] };
	}
 
	const context = chunks.map((c, i) => `[${i + 1}] ${c.content}`).join("\n\n");
 
	const message = await client.messages.create({
		model: "claude-opus-4-7",
		max_tokens: 1024,
		messages: [
			{
				role: "user",
				content: `Answer the question using only the context below. If the answer isn't in the context, say so. Cite sources as [1], [2], etc.
 
Context:
${context}
 
Question: ${query}`,
			},
		],
	});
 
	const text =
		message.content[0].type === "text" ? message.content[0].text : "";
 
	const citationPattern = /\[(\d+)\]/g;
	const citedIndices = new Set<number>();
	for (const match of text.matchAll(citationPattern)) {
		citedIndices.add(parseInt(match[1]) - 1);
	}
 
	return {
		answer: text,
		citations: [...citedIndices]
			.filter((i) => i < chunks.length)
			.map((i) => ({
				index: i + 1,
				source: chunks[i].metadata?.source,
				excerpt: chunks[i].content.slice(0, 200),
			})),
	};
}

interface EvalCase {
	query: string;
	relevantIds: number[]; // IDs of chunks that should appear in top-k
}
 
async function recallAtK(cases: EvalCase[], k = 5): Promise<number> {
	let totalRecall = 0;
 
	for (const { query, relevantIds } of cases) {
		const results = await retrieve(query, k);
		const retrievedIds = new Set(results.map((r) => r.id));
		const hits = relevantIds.filter((id) => retrievedIds.has(id)).length;
		totalRecall += hits / relevantIds.length;
	}
 
	return totalRecall / cases.length;
}
 
// Usage
const evalSet: EvalCase[] = [
	{ query: "How do I reset my password?", relevantIds: [42, 43] },
	{ query: "What payment methods do you accept?", relevantIds: [17] },
];
 
const score = await recallAtK(evalSet, 5);
console.log(`Recall@5: ${(score * 100).toFixed(1)}%`);

const ollamaClient = new OpenAI({
	baseURL: "http://localhost:11434/v1",
	apiKey: "ollama", // required but unused
});
 
async function embedWithOllama(texts: string[]): Promise<number[][]> {
	const res = await ollamaClient.embeddings.create({
		model: "nomic-embed-text", // 768 dimensions
		input: texts,
	});
	return res.data.map((d) => d.embedding);
}

export const documentsLocal = pgTable(
	"documents_local",
	{
		id: serial("id").primaryKey(),
		content: text("content").notNull(),
		embedding: vector("embedding", { dimensions: 768 }),
		metadata: jsonb("metadata"),
	},
	(t) => [
		index("documents_local_embedding_hnsw_idx").using(
			"hnsw",
			t.embedding.op("vector_cosine_ops"),
		),
	],
);

RAG with Postgres, Drizzle, and pgvector

Schema

Join My Newsletter

Ingestion

Chunking

Embedding and inserting

Retrieval

Hybrid search

Generation

Evaluating retrieval

Self-hosted embeddings with Ollama