基因資料平台 | 序列資料庫 × 知識庫 × RAG

Product Surfaces

三個可驗證的核心模組

每一個模組都能直接追到後端 API、DB 快取或 RAG 文件輸出。

可驗證架構設計

Live API

Sequence Operations

從公開來源抓 protein / gene sequence，落到 Postgres 快取後，前端就能直接搜尋、篩選、檢視與刪除。

UniProt / Ensembl 同步

Render DB 快取

前端即時讀取

查看 Sequence Vault

Live API

Knowledge Vault

把 UniProt annotation 與 PubMed 摘要整成 evidence feed，再輸出可直接送進向量資料庫的 RAG 文件片段。

Evidence Search

Document Chunking

Metadata-ready

查看 Knowledge Vault

Live API

RAG Documents

把知識庫中的 annotation 與 literature 整理成 chunk 與 metadata，前端可以直接預覽後端輸出的檢索文件格式。

Chunk Preview

Source Metadata

Retrieval-ready

查看 RAG Documents

Runtime Status

全部 API-backed，即時可驗證

序列同步、知識同步，以及 RAG 文件輸出，每一塊都能對應到真實端點與資料結構。

真實資料驅動

Sequence Vault

Live API-backed

真的會讀 `/healthz`、`/api/sequences/summary`、`/api/sequences`，也能同步與刪除 DB 紀錄。

Knowledge Vault

Live API-backed

真的會同步知識資料、讀取快取，並向 `/api/rag/documents` 產生 RAG 文件預覽。

RAG Documents

Live API-backed

會向 `/api/rag/documents` 讀取後端整理好的 chunk 與 metadata，直接預覽檢索文件輸出。

Live Modules

資料同步、證據檢索與 RAG 輸出

Sequence Vault 與 Knowledge Vault 負責建庫，RAG preview 負責把後端文件輸出直接攤在 UI 上檢查。

Sequence Vault Knowledge Vault RAG Documents

Live Interface · Data Cache

把公開蛋白質與基因序列爬進 DB，直接在平台內動態展示

這個模組會從 UniProt 與 Ensembl 抓取 protein / gene sequence，寫進 Render PostgreSQL，之後頁面就直接從 DB 讀快取，不再只是靜態示範卡片。

Live API · UniProt + Ensembl + Render Postgres

同步設定

先抓公開資料，再把結果存進 Render DB 給互動介面讀取。

UniProt protein query

Gene symbols

Ensembl species

每次同步筆數

策略是先讀 DB，只有 DB 還是空的，或你手動按同步時，才會重新打公開來源。這樣前端展示會穩定很多。

API base: detecting...

Render Sequence Cache

切換 protein / gene cache，查看最新入庫紀錄與來源 metadata。

DB-backed Interactive Feed

Sequence Detail

尚未選取資料列。

Live Interface · ENA Metadata Cache

把 ENA sequencing run metadata 收進 DB，直接查 study / sample / instrument

這個模組會從 ENA Portal API 抓取 sequencing run metadata，寫進 Render PostgreSQL，之後頁面就能直接查詢 study accession、sample accession、library strategy、instrument model 與 FASTQ metadata。

Live API · ENA Portal API + Render Postgres

ENA run 同步設定

抓取 sequencing run metadata，寫進 sequencing_run_library 給前端直接檢索與摘要展示。

ENA query

每次同步筆數

這裡適合接 NGS / multi-omics 的 metadata 層。前端先看 study 與 sample 分布，後端再把 record_url 與 ftp_url 串到後續分析流程。

API base: detecting...

Sequencing Run Cache

查看 ENA run metadata、library strategy 與 instrument 分布，直接驗證資料有沒有正確落進 DB。

Study + Sample + Run Metadata

Sequencing Run Detail

尚未選取 sequencing run 紀錄。

Live Interface · Evidence Cache

把 UniProt 註釋與 PubMed 摘要整理成可查詢、可匯出的知識庫

這個模組把蛋白質功能註釋和 NCBI 文獻摘要存進 Render PostgreSQL，再整理成 RAG-ready documents。前端可直接搜尋證據，後端可直接輸出 chunk 與 metadata 給檢索流程。

Live API · UniProt + NCBI E-utilities + RAG-ready

知識同步設定

抓取蛋白質註釋與 PubMed 摘要，寫進 knowledge_library，並輸出可分塊 documents。

UniProt annotation query

PubMed literature query

每次同步筆數

UniProt 比較適合做 protein annotation cache，PubMed 則補文獻語意層。這兩類內容合在一起，會比只有序列更適合做 RAG。

API base: detecting...

Knowledge Search Surface

切換 protein annotation / literature，查看 DB 快取與對應的 RAG chunk 預覽。

Search + Evidence + Documents

Knowledge Detail

尚未選取知識紀錄。

RAG-ready Documents

這裡顯示的是後端整理好的 chunk 與 metadata，可直接餵進向量資料庫或檢索流程。

尚未產生文件預覽。

目前還沒有 RAG 文件預覽。先同步知識資料或按「更新 RAG 預覽」。

Current Scope

資料同步、證據檢索與 RAG 輸出

三個核心模組完整串接，序列、知識與文件層一起可用。

打開 Sequence Vault 查看 Sequencing Runs 查看 Knowledge Vault 查看 RAG Documents

Protein Network

蛋白質交互作用網路

STRING DB 真實數據，可拖曳、縮放。

把序列資料、知識檢索與 RAG 文件
收進同一個基因資料平台

三個可驗證的核心模組

Sequence Operations

Knowledge Vault

RAG Documents

全部 API-backed，即時可驗證

Sequence Vault

Knowledge Vault

RAG Documents

資料同步、證據檢索與 RAG 輸出

把公開蛋白質與基因序列爬進 DB，直接在平台內動態展示

Render Sequence Cache

把 ENA sequencing run metadata 收進 DB，直接查 study / sample / instrument

Sequencing Run Cache

把 UniProt 註釋與 PubMed 摘要整理成可查詢、可匯出的知識庫

Knowledge Search Surface

資料同步、證據檢索與 RAG 輸出

蛋白質交互作用網路

AI 助手