硅基茶馆——关于AI的唠嗑扯闲篇

不清楚实际的运转,但是从大伟哥上交演讲的内容来说,以及在星铁招聘发出的AI帕姆的演示图,都可以得出老米内部是有在搞多模态模型的。

米明确做多模态的,星之低语都有语音输入的





2 个赞

多模态的话可能针对玩家的衣服吧,不是只有文字啊 :pm_tr_011:

更新几则快讯
1.当地时间 4 月 2 日,谷歌 DeepMind 正式发布 Gemma 4,这是一个全新的开放权重模型系列。谷歌还做出了一个关键决定:采用 Apache 2.0 许可证,彻底放弃了之前备受争议的限制性条款。作为外部人士的 Hugging Face 联合创始人兼 CEO Clément Delangue 评价称:“Gemma 4 以 Apache 2.0 许可证发布是一个重要的里程碑。”
信息源:DeepTech深科技https://mp.weixin.qq.com/s/94Vdcg4rYn6pwGAonsoFVw
2.阿里通义多款模型齐发
①阿里发布图像生成与编辑统一模型Wan2.7-Image告别AI标准脸,实现“千人千面”全新支持“调色盘”,精准控制色彩3K token超长文本渲染,可写满一页A4纸交互式编辑,哪里不爽点哪里具备文生图、图生组图、图像指令编辑和交互式编辑等全链路能力
② Qwen3.6-Plus 正式上线。该版本现已通过 API 即刻开放调用,相较于前代模型实现了全方位的能力大幅跃升。其中最引人注目的是,我们显著增强了模型的智能体(Agent)编程能力。无论是前端网页开发,还是复杂的代码仓库级问题求解,Qwen3.6-Plus 均树立了全新的业界标杆(SOTA)。此外,Qwen3.6-Plus 对世界的感知更加精准,多模态推理能力也更为敏锐。本次发布直接回应了社区在 Qwen3.5-Plus 部署期间反馈的意见,为开发者生态提供了高度稳定可靠的基础,带来真正具有变革意义的“氛围编程”(Vibe Coding)体验。
③阿里发布全新升级的Wan2.7-Video视频生成模型涵盖文生视频、图生视频、参考生视频和视频编辑四大模型拥有全面的创作控制力将AI的能力从单一素材生成扩至创作全链路,从“演”迈向“导”
信息源:千问大模型公众号

1 个赞

大语言模型就是默认只能接受文本输入,能接受音频视频图片输入都算多模态
早期的做法是把多模态信息翻译成文本直接送给原本只能处理文本的大语言模型
现在比较多的是原生的多模态大模型,训练的时候也会用到音视频的输入。

不知道实现细节,但米本身做这个咖啡店场景是有很多考虑的,不是单纯文字chat模式,咖啡店也不是背景板。做多模态可以让模型更有活人感,能主动去看听说,这样客人换了装扮进来就会注意到,主动找话题,这些外观变化也可能会进入记忆系统,加深对客人的理解。

做音频我能理解,因为后续可能会开放玩家的语音输入,但是她并不需要“看”啊,玩家的着装和行为在系统眼里就是一行代码(比如,玩家1进入咖啡馆,上衣:XX,裤子:XX),本质上也是一种文本输入,并不需要通过图像理解。我猜娜洛的基座模型是原生的多模态。

看制作组考量,智能边界在哪里。
一测时有玩家拿好大的鱼拼图案,还有4个人排站位,让老板娘各种猜,摆的是什么数字或字母,多次摆放连起来是什么单词,当时是没有实现该对话的
如果智能体对话多位玩家,是会有图像识别的场景

感觉说法有点怪
娜洛拿到的是代码,这个感觉没问题,在游戏里娜洛应该就是拿到玩家的参数✓
本质也是文本数据所以不需要图像理解✗
所有数据在底层都是0101都是文本数据(
所以图像理解也可以理解为让计算机知道图像那种格式的文本和直接的红色,裙子这样的文本是对应的
然后从那张图来看,那个头像是自定义的,娜洛的回答也还算相关,应该是有图像理解能力的
然后是不是原生,原生不原生都能做到图像理解,只是现在大家觉得果然原生上限高一点虽然开销也大一点。

2 个赞

“AI未来基石”基金的设立,目标是清晰的:依托人工智能学院,支持学校在人工智能领域的整体战略布局,包括引进顶尖学者、培养AI人才以及推进各类AI+交叉学科的研究和发展。

三位创始人当年从宿舍出发,怀揣着“技术宅拯救世界”的梦想;今天他们支持的方向,是让人工智能真正“拯救世界”—— 从脑机接口到可控核聚变,从云游戏到通用人工智能,那些最前沿、最不确定、最需要长期投入的领域,正是基金重点关注的“靶心”。

AI在米内部地位相当高啊,已经明确要用AI来实现技术宅拯救世界的愿景了 :118:

来源

(https://mp.weixin.qq.com/s?__biz=MjM5MDIyMDQyMA==&mid=2650864689&idx=1&sn=02c6940744a978a4009909c9d2649a59&chksm=bc71736485f555602d0c2b410ad0f65aed2288115fd1086186ef72b742966fe1cdbc9ba91935&mpshare=1&scene=23&srcid=0404cr5f9un3RokiF8M6qEyT&sharer_shareinfo=0a5c0ba614abe3fec84322f69cef5b72&sharer_shareinfo_first=0a5c0ba614abe3fec84322f69cef5b72#rd)

2 个赞

对的,AI目前在老米内部的定位恐怕是战略级的了

deepseek目前正在进行灰度测试,目前可可确认信度较高的是会有快速模式、专家模式及视觉模式,另外网上也有流传一张灰度测试截图,里面还有两个模式,扮演模式与代码模式。
如图所示

这张截图的可信度相对较低,绝大多数灰度测试的消息是只有三个模式。

我的平板上的ds目前有快速模式和专家模式
快速模式可以传文件(依然是仅识别文字)
专家模式没有这个按钮

奇怪的是
手机的应用市场居然没看见ds的更新,界面还是以前的样子
明明都是华为
难道是因为homo系统的版本不一样
平板是homo2,手机是homo4?

具体不清楚, 不过移动端灰测好像确实只有快速和专家两个模式的


Openai未能短暂抵达未来,仍旧停留在现在。先不论5年能不能再创一个meta级别的1000亿美元广告收入,画饼都依然用传统变现方式画饼。

1 个赞

没事,相信GPT6出世的时候会薄纱所有AI的(乐) :rofl:

1 个赞

米哈游旗下AI团队新模型公开,详见米游咨询up主星币谷地最新视频
链接: 米哈游 旗下AI团队发布新一代 虚拟人视频生成模型!_哔哩哔哩_bilibili

3 个赞

刚看到这个,楼主还是快我一步

https://large-performance-model.github.io/

本研究专注于为虚拟 AI 角色生成视觉情感表演能力,旨在服务于积极正面的应用场景,例如促进教育公平、为存在沟通障碍的人士提供无障碍服务、以及提供陪伴或心理支持。本技术不以创建误导、欺骗或冒充真实人物的内容为目的。我们坚决反对任何利用该技术制作涉及真实个人的误导性或有害内容的行为,并积极致力于将相关技术应用于伪造检测的研究。

本研究中所有演示和评估使用的参考图片、音频片段和文本提示均来源于商业可用的生成模型或具有宽松许可的公开数据集,不涉及任何真实人物的肖像、声音或身份信息。本页面展示的所有视频均完全由 LPM 1.0 基于上述合成输入生成,不描绘任何真实个人,与真实人物的任何相似之处纯属巧合。目前该方法生成的视频仍包含可识别的伪影痕迹,定量分析表明其与真实视频的真实感之间仍存在差距。

我们没有计划向公众发布模型权重、源代码、在线演示、API、产品或任何相关服务。本项目页面仅用于展示 LPM 1.0 当前阶段的研究进展,以供学术交流之用。该模型不会开源,也不会对外提供使用。我们致力于负责任地开发人工智能,以促进人类福祉为目标,只有在充分的安全保障措施和负责任使用框架切实到位之后,才会考虑开放。

2 个赞