Album
时长:
6分钟
播放:
127
发布:
4个月前
主播...
简介...
https://xiaoyuzhoufm.com

【AI大模型】 谷歌发布全新 Gemini 2.5 Flash-Lite 稳定版


* 速度与成本达到良好平衡,支持高达100万 token 的上下文


* 定价具竞争力:每百万输入token为0.10美元,输出为0.40美元


* 开发者可通过指定模型名 gemini-2.5-flash-lite 使用新版本


【语音技术】 腾讯混元自主研发ASR大模型接入ima平台


* 为ima平台提供高效的语音输入体验,实现手机App端语音输入


* 采用基于双编码器的流式ASR架构,在中英文混杂场景中表现突出


* 支持多语言及方言识别,未来将持续优化


【AI编程】 通义千问开源最新AI编程大模型Qwen3-Coder


* 模型在代码生成和Agent能力上达到顶尖水平


* 拥有强大的MoE架构和256K长上下文处理能力


* 参数量高达480B,适用于大规模代码库和动态数据处理


详情链接:https://modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct


Hugging Face:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507


Qwen Code GitHub:https://github.com/QwenLM/qwen-code


【AI硬件】 360将推智能眼镜和AI录音笔


* AI录音笔能智能分析不同场景并总结要点


* 智能眼镜将配备显示功能,以创造新应用场景


* 智能眼镜可充当提词器和翻译工具,提升沟通效率


【医疗AI】 国内首个通过主任医师评测的大模型已在夸克AI搜索上线


* 夸克健康大模型成功通过主任医师笔试评测,展现强大医学推理能力


* 通过构建“慢思考能力”,提升复杂医疗问题的处理能力


* 拥有千人规模专业医师标注团队,确保模型输出的专业性


【AI视频】 Hedra Live Avatars震撼发布,开启人机交互新纪元


* 超低成本:每分钟仅0.05美元,降低高质量视频AI代理的准入门槛


* 超低延迟:低于100毫秒的响应时间,确保实时交互的流畅性


* 高度灵活:兼容主流大语言模型和文本转语音技术


详情链接:https://www.hedra.com


【图像处理】 谷歌 Gemini2.5革新图像处理功能


* 推出“对话式图像分割”,通过自然语言提示分析和突出显示图像内容


* 不止识别物体,更能理解抽象概念、关系查询和逻辑指令


* 开发者可通过 Gemini API 访问该功能,返回 JSON 格式结果


【AI大模型】 Meta 推出创新模型 AU-Nets,革新文本处理方式


* 通过自回归的 U-Net 结构,实现对文本的灵活处理


* 能够从原始字节开始学习并动态组合成多层次的序列表示


* 采用收缩和扩张路径,确保宏观语义信息和局部细节的有效融合


详情链接:https://github.com/facebookresearch/lingua/tree/main/apps/aunet


【业界动向】 苹果 AI 团队内部风波:自主研发与开源梦碎


* 苹果AI团队开源计划被高层否决,担忧模型在设备端性能不足


* 苹果坚持设备优先策略,限制了AI技术发展潜力


* 苹果或将转向与OpenAI、谷歌等第三方大模型合作以提升Siri功能


【AI动画】 Fogsight AI革新教育演示,一键生成教学动画


* 基于大型语言模型的AI动画引擎,将抽象概念转化为直观易懂的动画


* 输入关键词或短语,即可生成包含双语旁白和电影级视觉效果的动画短片


* 支持多轮对话调整动画内容,满足个性化需求


详情链接:https://github.com/fogsightai/fogsight

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧