多模態AI | 香港AI培訓學院

Vidu Q2 震撼登場：圖像生成服務全面免費，ShengShu Technology 意圖挑戰全球 AI 視覺龍頭？

ShengShu Technology 推出 Vidu Q2 模型，大幅升級圖像生成能力，提供 Text-to-Image、Reference-to-Image 及 Image Editing 等全棧式解決方案。為搶佔市場份額，Vidu Q2 宣布 1080p 圖像生成功能將無限期免費開放至 2025 年底。該模型在一致性、速度及畫質上表現優異，性能已超越部分國際頂級模型，並實現圖像與影片的統一視覺引擎，旨在成為專業創作者的高效生產力套件。

AI新聞資訊

AI-SOLVE 小編

2025年12月3日

小型AI模型化身強大語言模型的「視覺器官」

BeMyEyes框架由微軟等機構提出，顛覆傳統「越大越好」的AI敘事。該框架透過模組化協作，讓輕量級的視覺模型（感知器代理）與大型語言模型（推理器代理）分工合作，成功賦予純文本LLM「視覺器官」。研究顯示，此架構在多項基準測試中超越GPT-4o，證明了「組織能力」勝過純粹的「模型體積」。這種方法不僅大幅降低了多模態AI的訓練成本，還因其彈性，能快速適應特定行業需求，推動AI能力的民主化。

AI新聞資訊

AI-SOLVE 小編

2025年11月28日

Agentic AI：虛擬助理的未來已來

本文探討從傳統RPA到Agentic AI（代理式人工智慧）的轉變，指出當前自動化系統缺乏「心智理論」和情商的侷限。有效的虛擬助理必須掌握知識獲取（超越RAG）、複雜對話、多步驟代理性以及同理心與信任四大支柱。文章強調神經符號系統結合深度學習與符號推理，以及多模態理解（視覺、情感）對於建立可靠、具備人性化互動的AI助手的關鍵性，預示著可穿戴設備將加速這一趨勢的實現。

AI新聞資訊

AI-SOLVE 小編

2025年11月8日

Vidu Q2 震撼登場：圖像生成服務全面免費，ShengShu Technology 意圖挑戰全球 AI 視覺龍頭？

小型AI模型化身強大語言模型的「視覺器官」

Agentic AI：虛擬助理的未來已來

聯絡我們