| 項次 | 料號 | 數量 | 單位 | 需用日 | 小計 |
| | 品名規格 | | | 單價 | |
| 規格 | |
| 10 |
|
1 |
CS |
20251215 |
|
| | 多模態 AI 代理與時空記憶資料庫生成技術研究 | | |
________________ |
________________ |
| | 多模態 AI 代理與時空記憶資料庫生成技術研究
一、專案目標 本計畫以「時空記憶資料庫」與「多模態 AI 代理」為核心,發展多型態企業文件 揉合生成技術。旨在委託廠商進行「多模態 AI 代理與時空記憶資料庫整合之企業 文件生成模組」之研究、開發與系統原型建置。期望以研究方式探索多模態感知技 術、時空記憶資料結構、語意檢索與視覺語言模型之整合方法,並完成可運用於企 業文件自動化之原型系統。
二、專案規格 本案採購範疇以研究性系統開發為主,包括技術研究、模型驗證、系統原型建置與 測試,內容如下: 本方法可由以下步驟達成: (1),,透過 Docker 容器部署。核心的 API 服務基於 FastAPI 建構,作為感測數 據(影像)的接收端點。 數據流入後,系統利用 Salesforce/blip-image-captio ning-large 模型將原始影像轉換為語意描述(視覺感知),隨後與物理位置資訊 相結合,格式化為一筆結構化的「時空記憶」最終存入專用資料庫(Milvus)。 (2),,透過 Docker 容器部署。核心的 API 服務基於 FastAPI 建構。 整合 Gradi o 介面,成功實現了語音訊號搜集,並透過 whisper 將語音訊號轉為文字。 使用 OpenAi官方提供的Python SDK串接gpt-4o-mini,提取關鍵字,並理解使用者的意 圖。 (3),,使用LangChain查找記憶。當AI理解使用者意圖後,能主動搜尋記憶資料庫, 找出與「蘋果」相關的歷史記憶。 (4),,VLM搭配AT prompt learning 可以用較少的資料達到比CNN更好的辨識效果。
三、專案時程 本案時程由民國114年11月28日起至民國114年12月15日止,雙方應於專案時程結束 前完成所有交付及驗收工作。
四、交付項目 本案應交付項目之預定交付時間詳列如下:
研究成果文件乙份,內容包含: ,,-研究總報告(含技術研究、模型比較、模型效能評估、流程設計) ,,-系統技術文件(API 文件、架構圖、資料流程圖) ,,-研究過程產出之原始資料與測試資料,, 預定交付時間:12/15,,
伍、驗收方式 針對規格逐一進行驗收。
|
|