Vaikeat kysymykset

Miksi ette käytä SQLiteä?

Lyhyt vastaus

Koska tutkimuskysymys ei ole voiko SQLite tehdä tämän, vaan voiko object storage itse toimia kyseltävänä lukukerroksena ilman tietokantapalvelinta.

SQLite olisi vahva oletus, jos tavoite olisi yleinen embedded SQL-ratkaisu. Mutta silloin tutkimusasetelma olisi eri. Tässä kiinnostava kohta on nimenomaan se, voidaanko immutable object storagea käyttää tehokkaasti kyseltävänä artifactina.

Miksi ette käytä D1:tä?

Todennäköinen kysymys

Miksi ette käytä Cloudflare D1:tä?

Lyhyt vastaus

D1 ratkaisee eri ongelman.

Pidempi vastaus

Tässä tutkimuksessa kiinnostava yhdistelmä on immutable object + Worker + byte-range-read + kyselysuunnittelija ilman tietokantapalvelinta ja ilman perinteistä relaatiokerrosta.

Turvallinen muoto

D1 on oikea vastaus silloin, kun halutaan tietokanta. Tämän tutkimuksen pointti on selvittää, milloin object storage itse voi riittää lukukerrokseksi.

Miksi tämä ei ole SQL?

Todennäköinen kysymys

Miksi ette vain kutsu tätä tietokannaksi?

Lyhyt vastaus

Koska tämä ei ole yleinen SQL-moottori.

Pidempi vastaus

Kyselyt tunnetaan etukäteen, suunnittelija on deterministinen, eikä mallissa ole vapaata SQL:ää, join-operaatioita tai OLTP-tyyppistä mutaatiokuormaa. Oikea kuvaus on lukupolulle optimoitu julkaisu- ja briefing-arkkitehtuuri.

Mikä ongelma tällä ratkaistaan?

Todennäköinen kysymys

Mitä ongelmaa tässä oikeastaan ratkaistaan?

Lyhyt vastaus

Tässä ratkaistaan kahta eri ongelmaa: toimituksellista ongelmaa ja datan jakelun ongelmaa.

Pidempi vastaus

Toimituksellinen ongelma: uutisvirtaa on liikaa. Tarvitaan putki, joka hakee useita lähteitä, poistaa duplikaatit, kokoaa samaa tarinaa yhteen, erottaa lähdefaktan toimituksellisesta kopiosta ja näyttää varmuustason.

Datan jakelun ongelma: kun sisältö on jo rakennettu etukäteen, sitä ei välttämättä kannata palvella täydellä tietokantapalvelimella. Silloin kysymys on voidaanko enimmäkseen luettava briefing-data toimittaa suoraan object storagesta ilman tietokantapalvelinta.

Miten AI liittyy tähän?

Todennäköinen kysymys

Onko tämä vain AI-uutissivusto?

Lyhyt vastaus

Ei. AI on yksi osa putkea, mutta ei julkista pyyntöpolkua.

Pidempi vastaus

Nykyisessä jaossa Claude valitsee shortlistin ja lopullisen valinnan, OpenAI tuottaa julkaistavat toimitukselliset kentät ja grounding + publish-gate yrittävät estää heikot signaalit. Julkinen /api/data tai /api/news/history ei kutsu AI-malleja jokaisessa pyynnössä.

Mistä AI tietää mitä tapahtui?

Todennäköinen kysymys

Käykö AI vapaasti verkossa?

Lyhyt vastaus

Ei. AI toimii rajatun tutkimuskorpuksen päällä.

Pidempi vastaus

Ensin rakennetaan korpus:

raw articles RSS-lähteistä
story clusters
source metadata
audit snapshotit

Sen jälkeen toimituksellinen vaihe toimii tämän aineiston päällä. AI ei arvaa maailmaa tyhjästä, vaan käyttää kerättyä ja audit-kelpoista korpusaineistoa.

Miksi AI ei ole request pathissa?

Todennäköinen kysymys

Miksi ette vain generoi vastausta livenä?

Lyhyt vastaus

Koska julkinen käyttöliittymä tarvitsee vakaan vasteajan, toistettavan sisällön ja audit-polun.

Pidempi vastaus

Jos AI olisi pyyntöpolussa, vasteaika, toistettavuus, versionointi ja audit-kelpoisuus heikkenisivät. Tässä mallissa AI tekee korpustulkintaa, shortlistin, toimituksellisia kenttiä ja groundingin apua ennen julkaisua.

Mikä publish-gate on?

Todennäköinen kysymys

Julkaiseeko AI kaiken automaattisesti?

Lyhyt vastaus

Ei. Publish-gate erottaa AI-outputin julkaistavasta signaalista.

Pidempi vastaus

Publish-gaten tarkoitus on estää heikot tai puutteelliset signaalit, laskea convictionia matalan varmuuden tapauksissa ja pitää julkinen publish-polku hallittuna.

Turvallinen muoto

Publish-gate ei tee järjestelmästä totuuskonetta, mutta tekee siitä läpinäkyvämmän ja hallitumman kuin pelkkä AI-yhteenvetoputki.

Mikä consensus tässä on juuri nyt?

Todennäköinen kysymys

Onko teillä jo valmis consensus-malli tai claim-level fact-checking?

Lyhyt vastaus

Ei vielä. Nykyinen consensus v1.1 on heuristinen tuotekerros, ei formalisoitu tutkimusmalli eikä väitetason faktantarkistusmoottori.

Pidempi vastaus

Lähdedokumenttien nykytila on tämä:

julkisessa /api/data-vastauksessa on kevyt consensus-kerros jokaiselle signaalille
se lasketaan Workerissa, ei erillisenä LLM-vaiheena
syötteinä käytetään evidenceSources-listaa, sourceHealth-snapshotia ja ingest-vaiheessa talteen otettua sourceSnapshots-metadataa
nykyinen objekti sisältää ainakin kentät level, confidenceScore, independentSourceCount, sourceWeightSum, avgSourceWeight, avgSuccessRate, degradedSourceCount, contradictionFlag, contradictionReasons, singleSource, crossSource ja sources[]
tasot ovat low, medium, high ja contested

Docsien mukaan tämän tarkoitus ei ole vielä "todistaa totuutta", vaan erottaa:

yhden lähteen signaalit
usean riippumattoman lähteen tukemat signaalit
tapaukset, joissa lähteiden välillä näkyy eksplisiittinen ristiriita

Mitä on oikeasti varmennettu

implementation-status.md ja live-smoke-testaus.md osoittavat, että 28.6.2026 live-puolella oli varmennettu ainakin:

/api/data palauttaa consensus-kentät tuotannossa
consensus.level voi olla low|medium|high|contested
contradiction-haara toimii julkaistussa datassa asti
kontrollitapauksessa inflow vs outflow palautui muodossa consensus.level = contested ja contradictionFlag = true
samalla korjattiin oikea delta-persistenssibugi, jossa sourceSnapshots saattoi aiemmin kadota publish-vaiheessa

Mitä tämä ei vielä tee

Sama dokumentaatio rajaa nykyisen toteutuksen ulkopuolelle:

stance- tai claim-extractionin
pidemmän aikavälin story-chain-consensuksen
täyden väitetason faktasovituksen
hienovaraisen numeeristen ristiriitojen päättelyn
formalisoidun cross-source consensus -moottorin

Turvallinen muoto

Nykyinen consensus on Workerissa laskettu heuristinen confidence- ja contradiction-kerros. Se auttaa näyttämään monilähteistä tukea ja ristiriitatilanteita, mutta se ei vielä ole formalisoitu consensus-malli eikä claim-level fact-checking -engine.

Miksi immutable?

Todennäköinen kysymys

Miksi teitte tästä immutable-mallin?

Lyhyt vastaus

Koska se sopii object storageen ja helpottaa julkaisu- ja audit-polkuja.

Pidempi vastaus

Immutable-mallissa voidaan versionoida, rollbackata, julkaista ja auditoida ilman inplace-kirjoituksia aktiiviseen base-objektiin. Tämä tekee object storagesta luonnollisen julkaisupinnan.

Mikä pointer on?

Todennäköinen kysymys

Miksi tarvitsette pointerin?

Lyhyt vastaus

Pointer ratkaisee sen, mikä manifest on aktiivinen juuri nyt.

Pidempi vastaus

Uusi base ja manifest rakennetaan ensin, ja pointer vaihdetaan vasta lopuksi. Näin publish voidaan tehdä atomisesti ja vanha ketju säilyttää rollbackia varten.

Mikä delta engine on?

Todennäköinen kysymys

Miten muutokset tehdään, jos base on immutable?

Lyhyt vastaus

Muutos ei kirjoita basea yli, vaan syntyy append-only deltaobjektina.

Pidempi vastaus

Tyypillinen lifecycle on:

ingest
write delta
update manifest
julkaise pointer
kysy live-tila
compaction
rollback / retention tarvittaessa

Miten julkaisun turvallisuus on ratkaistu?

Todennäköinen kysymys

Entä jos kaksi publisheria kirjoittaa samaan aikaan?

Lyhyt vastaus

Publish suojataan CAS / ETag -mallilla.

Pidempi vastaus

Pointer-publish ei perustu siihen, että viimeinen kirjoitus vain voittaa. Käytetyt kontrollit ovat:

pointerKey
expectedGeneration
ETag guard
conditional write
health check

Miksi snapshotit, jos JDBIN kerran toimii?

Todennäköinen kysymys

Jos JDBIN toimii, miksi käyttöliittymä käyttää snapshotteja?

Lyhyt vastaus

Koska snapshotit ja live JDBIN -polku ratkaisevat eri ongelmia.

Pidempi vastaus

JDBIN on kanoninen tallennus- ja lukukerros. Snapshot on julkinen jakeluartifact. Snapshot-polku tekee julkisesta käyttöliittymästä nopean ja vakaan. Live-JDBIN-polku tekee kanonisesta tallennuskerroksesta auditoitavan, versionoidun ja mitattavan.

Turvallinen muoto

Käyttöliittymän oletuspyyntöpolku ei ole live-JDBIN-kysely, vaan snapshot-ensin JSON-jakelu. JDBIN/JDBON toimii kanonisena tallennuskerroksena ja julkaisumoottorina.