最新AI大模型咨询与技术解读——来自DataLearnerAI

谷歌发布视频大模型Veo 3.1：电影级别的视频生成，声音合成和同步能力大幅提升，但相比较Sora2依然有明显差距！

就在今日，Google 正式推出 Veo 3.1 和 Veo 3.1 Fast，这两款升级版视频生成模型以付费预览形式登陆 Gemini API。Veo 3.1的核心亮点是：更丰富的原生音频（从自然对话到同步音效）、更强的电影风格理解与叙事控制、以及显著增强的图生视频（Image-to-Video）质量与一致性。

2025/10/16 08:53:14 阅读 156

Sora/Veo/视频生成大模型/谷歌

如何评估大模型的Agent能力？τ²-Bench：评估双控对话智能体的新标准

为了解决大模型的Agent操作依赖交互和人工处理这个问题，普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench（Tau-Squared Benchmark），并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。它是对早期 τ-Bench 的扩展版本，旨在建立一种标准化方法，评估智能体在与用户共同作用于环境时的表现。

2025/10/12 10:03:58 阅读 229

大模型Agent能力评测/大模型评测/大模型评测基准

如何更好地使用 Sora2 生成视频？来自 OpenAI 官方的终极 Prompt 指南

Sora2 的发布再次引爆了视频生成领域。你可能已经看到过一些令人惊叹的演示视频，但当你自己上手时，生成的作品可能并不尽如人意。问题出在哪里？很可能就在你的提示词（Prompt）上。

2025/10/07 23:35:12 阅读 705

Sora2/视频生成大模型

自己制作电影不是梦，视频生成大模型的巨大进步！OpenAI发布第二代视频生成大模型Sora2：物理规律符合率达到88%，可以同步生成音频！物理真实感与声音控制全面突破

就在今日，OpenAI正式推出了 Sora 2 ——其旗舰级视频与音频生成模型。相比2024年2月发布的初代 Sora，本次升级带来了断层级的真实感与显著增强的可控性。它不仅能更好地遵循物理规律生成视频，还首次实现了同步对话与环境音效的生成，并通过全新 iOS 应用“Sora”开放给公众使用。

2025/10/01 15:17:59 阅读 288

OpenAI/Sora/Sora2/视频生成大模型

Google DeepMind 发布 EmbeddingGemma：面向端侧的多语言开源向量模型（308M），小体量也能打

EmbeddingGemma 是基于 Gemma 3 架构打造的全新开源多语言向量模型，专为移动端/本地离线应用而生。它以约 308M 参数的紧凑体量，在 RAG、语义搜索、分类、聚类等任务上提供高质量表征，同时将隐私与可用性拉满：无需联网即可在本地生成向量。

2025/09/06 05:02:35 阅读 222

EmbeddingGemma/Gemma/向量大模型

大语言模型（Large Language Model）为什么会“幻觉”？OpenAI最新发布揭示大模型幻觉根源与解决路径

尽管人工智能语言模型的能力日益强大，但它们依然面临一个棘手的问题：“幻觉”（Hallucination）。所谓幻觉，指的是模型自信地生成一个事实上错误的答案。OpenAI 的最新研究论文指出，这一现象的根源在于标准的训练和评估方式实际上在鼓励模型“猜测”而非“承认不确定性”。

2025/09/06 03:41:27 阅读 322

大模型幻觉

断层领先！Google发布图像生成和编辑大模型Gemini 2.5 Flash Image Preview，火爆网络的Nano Banana背后真正的模型发布！

就在刚才，Google宣布发布最新的图像生成和编辑大模型Gemini 2.5 Flash Image Preview。该模型就是最近火爆网络的Nana Banana背后真正的模型。该模型在图片生成和编辑方面目前是断层领先，效果非常好。

2025/08/27 01:22:47 阅读 344

Gemini2.5FlashImage/图像生成大模型/图像编辑大模型

神秘的图片生成和编辑大模型Nano Banana是什么？背后是Google吗？什么时候发布？能否颠覆Adobe

最近，一个代号 “Nano Banana” 的神秘图像生成与编辑大模型突然在社交网络上掀起风暴。与之前所有模型截然不同，它似乎拥有「记忆面孔」的魔法：无论角度、光影如何变化，人物的面容始终一致；它还能读懂照片里的故事，精准捕捉场景氛围，并服从多步骤、高复杂度的指令。然而，它像幽灵一样没有身世——没有官方文档，没有作者署名，甚至没有一行技术白皮书。极致的神秘感与惊人的效果形成巨大反差，像磁铁般吸住了整个社区的目光：它究竟出自谁手？能力边界到底在哪儿？本文会介绍一下这个模型当前已知的信息，以及如何使用。

2025/08/24 16:43:54 阅读 869

NanoBanana/图片生成大模型/图片编辑大模型

Aider Benchmark：面向代码编辑的大模型评测基准全解析

Aider 是一个在终端里进行结对编程的开源工具。为评估不同大模型在“按照指令对代码进行实际可落地的编辑”上的能力，Aider 提出并维护了公开基准与排行榜，用于比较模型在无人工干预下完成代码修改任务的可靠性与成功率。该评测已被多家模型提供方在技术说明中引用，用作代码编辑与指令遵循能力的对照指标。

2025/08/20 03:50:12 阅读 229

命令行助手/大模型编程能力/大模型评测/大模型评测基准

新模型发布：Gemma 3 270M，为特定任务打造的高效工具

谷歌开源了其Gemma 3模型系列的新成员——Gemma 3 270M。该模型的设计理念并非追求通用性和大规模，而是专注于为定义明确的特定任务提供一个高效、紧凑的解决方案。其核心价值在于通过微调（fine-tuning）来执行专门化任务。

2025/08/15 09:07:41 阅读 157

gemma3/开源大模型/端侧大模型

IOI（International Olympiad in Informatics）：从世界顶级算法竞赛到大语言模型的新基准

在衡量大语言模型（LLM）智能水平的众多方法中，除了常见的常识推理、专业领域测评外，还有一个正在兴起且极具挑战性的方向——算法问题求解。在这一领域，几乎没有哪项比赛能比国际信息学奥林匹克（International Olympiad in Informatics，简称 IOI）更具权威性与含金量。

2025/08/12 14:48:26 阅读 110

大模型数学能力评测/大模型评测/评测基准

智谱AI发布GLM-4.5V多模态推理模型

智谱AI刚刚开源了新一代视觉-语言模型（Vision-Language Model, VLM）——GLM-4.5V。该模型基于其旗舰文本基础模型GLM-4.5-Air（总参数量1060亿，激活参数量120亿），延续GLM-4.1V-Thinking的技术路线，在42项公开视觉多模态基准测试中，在同规模模型中实现领先性能。GLM-4.5V面向图像、视频、文档理解以及GUI任务等常见多模态场景，采用Mixture-of-Experts（MoE）架构，并保持开源。

2025/08/11 23:28:48 阅读 324

GLM-4.5V/开源大模型/智谱AI/视觉理解大模型

大模型评测基准AIME 2024介绍

2024年，美国数学邀请赛（AIME）成为评估大型语言模型（LLM）数学推理能力的重要基准。AIME是一项备受尊崇的考试，包含15道题，考试时间为3小时，旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。

2025/08/11 16:56:23 阅读 4484

SWE-Bench/大模型编程能力/大模型评测/大模型评测基准

SWE-bench Verified：提升 AI 模型在软件工程任务评估中的可靠性

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域，AI 模型是否能够准确地解决真实的编程问题，是衡量其真正应用潜力的关键。而在这方面，OpenAI 推出的 *SWE-bench Verified* 基准测试，旨在提供一个更加可靠和精确的评估工具，帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

2025/08/11 16:54:15 阅读 903

SWE-Bench/大模型编程能力/大模型评测/大模型评测基准

SWE-bench大模型评测基准介绍：测试大模型在真实软件工程任务中的能力

随着大语言模型（LLM）的快速发展，它们在自然语言处理（NLP）、代码生成等领域的表现已达到前所未有的高度。然而，现有的代码评测基准（如 HumanEval）通常侧重于**自包含的、较短的代码生成任务**，而未能充分模拟真实世界的软件开发环境。为弥补这一空白，研究者提出了一种全新的评测基准——**SWE-Bench**，旨在测试 LLM 在**真实软件工程问题**中的能力。

2025/08/11 16:51:52 阅读 1712

大模型编程能力/大模型评测/大模型评测基准

OpenAI Harmony 消息格式技术详解：一种为高级 Agent 设计的精细化消息格式

近日，OpenAI在发布其开源模型gpt-oss-120b和gpt-oss-20b的同时，也推出了一种专为这些模型设计的全新消息格式——Harmony。对于希望在自有解决方案中充分利用这些开源模型的开发者而言，理解Harmony至关重要。本文将以客观的第三方视角，详细解析Harmony格式的设计理念与技术细节。

2025/08/07 17:17:38 阅读 466

OpenAIHarmony消息格式/大模型技术

Simple Bench：一个专为“常识”而生的大模型评测基准

随着大型语言模型（LLM）的飞速发展，如何准确、全面地评估它们的能力成为了一个日益重要的课题。在众多评测基准中，Simple Bench 以其独特的定位脱颖而出，它专注于检验模型在日常人类推理方面的能力，而在这些方面，当前最先进的模型往往还不如普通人。本文将详细介绍 Simple Bench 评测基准，探讨其出现的背景、设计理念、评测流程以及当前主流模型的表现。

2025/08/07 09:34:05 阅读 284

SimpleBench/大模型评测/常识评测

OpenAI开源2个全新大模型，比肩o3-mini的GPT-OSS-20B和比肩o4-mini的GPT-120B，完全免费商用授权

在几个小时前，OpenAI开源了两款名为gpt-oss-120b和gpt-oss-20b的大语言模型。这是自GPT-2以来，OpenAI首次推出开源权重大语言模型，这两个模型的评测效果达到了o4-mini和o3-mini的水平，而且以Apache 2.0协议开源，大家可以自由使用，包括任何形式的商用。

2025/08/06 09:22:22 阅读 275

GPT-OSS/GPT-OSS-120B/GPT-OSS-20B/OpenAI/开源大模型

大模型评测基准Codeforces：代码生成能力的终极试金石

随着大型语言模型（LLM）能力的飞速发展，如何科学、准确地评估其性能，特别是深度的逻辑推理和代码生成能力，已成为人工智能领域的一大挑战。传统的评测基准在面对日益强大的模型时，逐渐暴露出数据污染、难度不足、无法有效评估真实推理能力等问题。在这一背景下，一个旨在检验模型竞赛级编程水平的评测基准——Codeforces应运而生，为我们提供了一个更严苛、更接近人类程序员真实水平的竞技场。

2025/08/06 09:10:31 阅读 241

代码生成评测/大模型评测/编程水平评测

大模型评测SimpleVQA全方位深度解析，直击多模态模型“事实幻觉”

随着多模态大语言模型（MLLM）在各个领域的应用日益广泛，一个核心问题浮出水面：我们如何信赖它们生成内容的准确性？当模型需要结合图像和文本进行问答时，其回答是否基于事实，还是仅仅是“看似合理”的幻觉？为了应对这一挑战，一个名为SimpleVQA的新型评测基准应运而生，旨在为多模态模型的事实性能力提供一个清晰、可量化的度量衡。

2025/08/01 15:49:57 阅读 137

多模态评测/大模型评测

Zhipu AI重磅发布GLM-4.5系列：技术深度解析与多维度性能评测

7月28日，智谱AI（Zhipu AI）向开源社区投下了一枚重磅炸弹，正式发布了其最新的旗舰模型系列：GLM-4.5。该系列包含两个新成员——GLM-4.5和GLM-4.5-Air，两者均以开源权重形式提供。官方技术报告详细阐述了其设计理念、技术细节以及在多项基准测试中的表现。本次发布的核心目标是打造一个能够统一推理、代码和Agent智能体能力的模型，以应对日益复杂的AI应用需求。本文将深入解析这份官方报告，剖析其核心技术、性能表现，并探讨其在当前大模型竞争格局中的战略定位。

2025/07/29 11:06:25 阅读 506

GLM-4.5系列/MoE架构/开源大模型/混合推理

阿里发布Qwen3小幅更新版本，放弃混合思考模式，发布全新的2个版本Qwen3-235B-A22B-2507模型，1/5的参数，性能直逼Kimi K2，推理模式版本评测结果接近o3

阿里今天开源了一个Qwen3-235B-A22B模型的小幅更新版本，命名为Qwen3-235B-A22B-Thinking-2507，这是一个只支持带推理过程的模型，而四天前，阿里还开源了Qwen3-235B-A22B-Instruct-2507，一个不支持推理过程的模型。这2个版本模型去除了Qwen3此前的一个模型的混合架构模式（即一个模型同时支持thinking和non-thinking），而是拆分成2个不同的版本。阿里官方说这是从社区获得了反馈之后决策的。

2025/07/26 08:22:25 阅读 729

Qwen3/Qwen3更新版/千问大模型

如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力？Terminal Bench评测简介

Terminal-Bench是一个新兴的开源基准测试，专为评估人工智能Agent（AI Agent）在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务，旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

2025/07/23 16:56:16 阅读 460

AIAgent评测/TerminalBench/大模型评测/评测基准

阿里开源全新编程大模型Qwen3-Coder-480B-A35B，官方宣称其编程水平接近Claude Sonnet 4，免费开源可商用，同时开源Claude Code免费平替选择Qwen Code

阿里宣布开源第三代编程大模型Qwen3-Coder-480B-A35B，该模型是Qwen3编程大模型中第一个开源的版本，同时官方还基于Google的Gemini CLI改造并开源了阿里自己的命令行编程工具Qwen Code，完全免费使用。

2025/07/23 08:30:01 阅读 589

Agentic编程/Qwen-Coder/Qwen3/编程大模型

最新博客