technical

Architektura RAG dla Dokumentów Prawnych

Retrieval-Augmented Generation to architektura AI, która sprawia, że analiza dokumentów jest praktyczna dla kancelarii prawnych. Oto jak działa, dlaczego jest lepsza od fine-tuningu i jak wygląda RAG z priorytetem prywatności.

Architektura RAG dla Dokumentów Prawnych

Problem, Który RAG Rozwiązuje

Modele językowe są trenowane na ogromnych zbiorach danych i rozwijają imponującą wiedzę ogólną, ale nie mają wiedzy o Twoich konkretnych dokumentach. Zapytaj GPT-4 o umowę podpisaną w ubiegłym miesiącu — nie wie o niej nic. Wiedza modelu ma datę graniczną treningu i nigdy nie obejmowała Twoich plików.

Naiwne rozwiązanie — dostrajanie modelu na Twoich dokumentach (fine-tuning) — ma poważne problemy:

  • Koszt: Dostrajanie dużych modeli wymaga znacznych zasobów obliczeniowych
  • Przestarzałość: Nowe dokumenty wymagają ponownego treningu
  • Ryzyko halucynacji: Dostrojone modele mogą “pamiętać” dane treningowe w zawodny sposób
  • Prywatność: Twoje dokumenty muszą zostać przesłane do infrastruktury treningowej, której możesz nie kontrolować
  • Brak cytowań: Dostrojone modele generują tekst, a nie odniesienia do dokumentów źródłowych

Retrieval-Augmented Generation (RAG) rozwiązuje wszystkie te problemy bez modyfikowania bazowego modelu.

Jak Działa RAG

RAG łączy dwa systemy: system wyszukiwania znajdującyi istotne fragmenty dokumentów oraz system generowania (model językowy) syntetyzujący te fragmenty w spójną odpowiedź.

Krok 1: Indeksowanie

Dokumenty są przetwarzane w przeszukiwalny indeks:

  1. Każdy dokument jest dzielony na fragmenty (zazwyczaj 512–1024 tokeny z nakładaniem)
  2. Każdy fragment jest przekształcany w osadzenie wektorowe — numeryczną reprezentację jego znaczenia semantycznego — przy użyciu modelu osadzeń
  3. Wektory są przechowywane w bazie danych wektorów obok oryginalnych fragmentów tekstu

Model osadzeń jest kluczowy: konwertuje tekst na liczby w sposób zachowujący znaczenie. Semantycznie podobne fragmenty dają podobne wektory, niezależnie od dokładnego brzmienia. “Uchylenie tajemnicy adwokackiej” i “ujawnienie stronom trzecim może pozbawiać ochrony przywileju” będą miały podobne osadzenia, mimo że nie mają wspólnych słów.

Krok 2: Wyszukiwanie

Gdy użytkownik zadaje pytanie:

  1. Pytanie jest konwertowane na wektor przy użyciu tego samego modelu osadzeń
  2. Baza danych wektorów znajduje fragmenty, których wektory są najbardziej podobne do wektora pytania (wyszukiwanie najbliższego sąsiada)
  3. Pobierane są górne K fragmenty (zazwyczaj 3–10) wraz z odniesieniami do dokumentów źródłowych

To jest wyszukiwanie semantyczne: szukanie znaczenia, nie słów kluczowych.

Krok 3: Generowanie

Pobrane fragmenty są składane w okno kontekstowe i dostarczane do modelu językowego wraz z pytaniem użytkownika:

System: Jesteś asystentem analizy dokumentów. Odpowiadaj na pytania wyłącznie
na podstawie dostarczonego kontekstu. Zawsze cytuj dokument źródłowy i numer
strony dla każdego twierdzenia.

Kontekst:
[Fragment 1: Klauzula umowna o odpowiedzialności — Źródło: umowa_fuzji.pdf, s. 47]
[Fragment 2: Definicja "Istotnego Negatywnego Wpływu" — Źródło: umowa_fuzji.pdf, s. 12]
...

Użytkownik: Co uruchamia klauzulę o istotnym negatywnym wpływie?

Model generuje odpowiedź opartą na pobranych fragmentach, a ponieważ instruujemy go do cytowania źródeł, każde twierdzenie w odpowiedzi odsyła do konkretnego dokumentu i lokalizacji.

Dlaczego To Działa Lepiej Niż Fine-Tuning

AspektFine-TuningRAG
Nowe dokumentyWymaga ponownego treninguNatychmiastowe (ponowne indeksowanie)
CytowaniaNieobsługiwaneNatywne
Ryzyko halucynacjiWyższe (model “pamięta”)Niższe (zakorzenione w pobranym tekście)
Koszt aktualizacjiWysokiNiski
WyjaśnialnośćCzarna skrzynkaIdentyfikowalne do źródła
PrywatnośćDokumenty w danych treningowychDokumenty tylko w indeksie wyszukiwania

Wyzwanie Dokumentów Prawnych

Dokumenty prawne stawiają specyficzne wyzwania, z którymi ogólne implementacje RAG radzą sobie słabo:

Wyzwanie 1: Struktura Dokumentu

Dokumenty prawne mają hierarchiczną strukturę — sekcje, podsekcje, klauzule, załączniki — i odsyłacze (“patrz Sekcja 4.2(a)(iii)”). Naiwne dzielenie według liczby znaków rozbija logiczne jednostki i traci kontekst.

Dobry RAG prawniczy używa dzielenia uwzględniającego strukturę: podziału na granicach klauzul zamiast arbitralnej liczby znaków, zachowania nagłówków sekcji i utrzymania kontekstu nadrzędnego dla zagnieżdżonych klauzul.

Wyzwanie 2: Zeskanowane Dokumenty

Wiele dokumentów prawnych istnieje jako zeskanowane pliki PDF — umowy podpisane na papierze, pisma sądowe, starsze materiały sprawy. Wymagają one OCR (optycznego rozpoznawania znaków) przed ekstrakcją tekstu.

Standardowe OCR produkuje tekst, ale traci informacje o układzie — w której kolumnie pojawia się cyfra, gdzie są adnotacje, jak wygląda blok podpisu. Dla celów prawnych ma to znaczenie. Położenie klauzuli w umowie może wpływać na jej interpretację.

Podejście Tacitus wykorzystuje dwupakietowe OCR: ekstrakcję zarówno warstwy tekstu (do przetwarzania semantycznego) jak i warstwy wizualnej (zachowującej strukturę wizualną dokumentu do wyświetlania cytowań). Gdy system cytuje źródło, może pokazać dokładną lokalizację na oryginalnej stronie.

Wyzwanie 3: Rozumowanie Między Dokumentami

Sprawy prawne rzadko dotyczą jednego dokumentu. Analiza due diligence może wymagać rozumowania na podstawie setek umów jednocześnie: znajdowania wszystkich klauzul odszkodowawczych, porównywania oświadczeń i gwarancji, identyfikowania brakujących standardowych postanowień.

Wymaga to nie tylko wyszukiwania na poziomie dokumentu, ale syntezy między dokumentami: zdolności do pobierania i porównywania istotnych klauzul z wielu dokumentów w jednym zapytaniu. Baza danych wektorów musi obsługiwać jednocześnie filtrowanie (według typu dokumentu, daty, strony) i ranking (według trafności).

Wyzwanie 4: Poufność

Tu większość komercyjnych implementacji RAG zawodzi w przypadku zastosowań prawnych. Aby korzystać z chmurowej usługi RAG, Twoje dokumenty muszą być:

  • Przesłane do infrastruktury dostawcy
  • Indeksowane na serwerach dostawcy
  • Przetwarzane przez modele osadzeń dostawcy
  • Przechowywane w bazie danych wektorów dostawcy

Na każdym etapie Twoje uprzywilejowane dokumenty klienta są w kontakcie z infrastrukturą, której nie kontrolujesz. To samo ryzyko naruszenia tajemnicy zawodowej, które dotyczy ogólnie chmurowej AI, dotyczy również chmurowego RAG.

Architektura RAG z Priorytetem Prywatności

Implementacja Tacitus adresuje poufność na poziomie architektonicznym:

┌─────────────────────────────────────────┐
│        Tacitus Cortex (lokalnie)         │
│                                          │
│  ┌──────────┐    ┌───────────────────┐  │
│  │  Przyjęcie│───▶│  Dwupakietowe OCR │  │
│  │ Dokumentów│    │  (tekst + wizual) │  │
│  └──────────┘    └────────┬──────────┘  │
│                           │              │
│                  ┌────────▼──────────┐  │
│                  │  Silnik Podziału  │  │
│                  │ (uwzgl. strukturę)│  │
│                  └────────┬──────────┘  │
│                           │              │
│              ┌────────────▼──────────┐  │
│              │    Model Osadzeń      │  │
│              │   (działa lokalnie)   │  │
│              └────────────┬──────────┘  │
│                           │              │
│              ┌────────────▼──────────┐  │
│              │    Baza Danych Qdrant │  │
│              │    (lokalnie)         │  │
│              └────────────┬──────────┘  │
│                           │              │
│  ┌──────────┐    ┌────────▼──────────┐  │
│  │Interfejs │───▶│    Lokalny LLM    │  │
│  │Zapytań   │    │  (Mistral/Llama)  │  │
│  └──────────┘    └───────────────────┘  │
└─────────────────────────────────────────┘
      Żadne dane nie opuszczają tej granicy

Każdy komponent działa na lokalnym urządzeniu:

  • Model osadzeń: Kwantyzowany transformer zdań działający na lokalnym GPU
  • Baza danych wektorów: Qdrant, baza danych wektorów o otwartym kodzie źródłowym bez zależności od chmury
  • Model językowy: Kwantyzowany LLM o otwartych wagach (zazwyczaj warianty Mistral lub Llama) działający na dedykowanym GPU
  • Silnik cytowań: Mapuje wyjścia modelu z powrotem na lokalizacje dokumentów źródłowych

Brak wywołań API. Brak osadzeń chmurowych. Brak zewnętrznego wnioskowania modelu. Cały potok działa na sprzęcie pod Twoją fizyczną kontrolą.

Co To Oznacza w Praktyce

Dla kancelarii prawnej RAG z priorytetem prywatności oznacza:

  • Przesłanie dokumentu = pozostaje lokalnie: Pliki są przetwarzane na urządzeniu i nigdy nie opuszczają Twojej sieci
  • Zapytania = bez zewnętrznych wywołań API: Pytania trafiają do lokalnego modelu, nie do OpenAI czy Anthropic
  • Odpowiedzi = ugruntowane i cytowane: Każda odpowiedź odwołuje się do konkretnego dokumentu i strony, która ją popiera
  • Ścieżka audytu = lokalne dzienniki: Kompletny zapis tego, kto zapytał co i co zostało pobrane, przechowywany w Twoich systemach

AI działa jak bardzo oczytany współpracownik, który przeczytał wszystko w aktach Twojej sprawy i może natychmiast znaleźć odpowiednie fragmenty — ale który jest przez Ciebie zatrudniony, pracuje w Twoim biurze i nie może nikomu przekazać tego, co przeczytał.


Tacitus Cloud Bridge to najszybsza droga do produkcyjnego RAG prawniczego bez inwestycji sprzętowej. Poproś o wersję próbną, aby ocenić ją na swoim zbiorze dokumentów.

#rag #ai #architektura #legal-tech #wyszukiwanie-wektorowe

Start Your Sovereign AI Trial

Experience Tacitus Cloud Bridge with a trial tailored to your evaluation needs. EU-hosted, single-tenant, and fully compliant from day one.