今天我们要聊一个非常有意思的话题——简街这家量化交易巨头最近在印度市场被指控操纵指数的事件。 Jane Street被印度监管部门处罚,引发热议。Jane Street到底是靠什么策略在印度市场上赚得盆满钵满,又为何引来监管处罚?坐拥全球最优秀的人才,不卷算法,甘愿冒市场操纵的风险,背后的缘由何在?
量化好声音,睡前听一听! hello大家好! 欢迎收听今天的量化好声音 我是Flora 我是Aaron 今天我们要来聊一聊一个非常有趣的话题 如何用大语言模型 来做一个 多智能体的金融交易框架 今天我们要介绍一个全网热搜的框架 叫TradingAgents 是不是听起来有点兴奋? 这听起来就很硬核啊 Trading Agents 会交易的代理? 对, Trading Agents 最近一个月,它很火啊 在github上新增了7k的赞 对,我看了一下github的历史 这个库是今年2月创建的 但最近一个月势头很猛啊 看上去是不是实现了什么技术上的突破? 也可能是因为它现在完全开源了 这也就解释了为什么最近这么火了 Aaron,在介绍这个框架之前 是不是先给大家介绍下 之前大语言模型在量化交易方面的进展? 好的 在这个模型出来之前 其实市场上已经有一些大模型做量化交易的例子了 比如bloombergGPT, XuanYuan 2.0 PIXIU, FinGPT等等 这里面像bloombergGPT XuanYuan 2.0, PIXIU 它们主要是金融语料相关的一些NLP任务 比如数据结构化处理、情绪分析、金融知识问答等等 不涉及到量化模型和交易 所以,你还没有介绍的FinGPT 应该是一个量化交易模型了? 对 FinGPT可视为与交易相关的模型 它基于情绪分析自动生成交易信号 信号体现为买卖时点 这个实际上就是听消息炒股了 我们前几天还做了一期节目 介绍了the crystal ball trading challenge 根据Victor Haghani等人的实证研究 看起来听消息炒股是不太聪明的样子啊 根据那个实验 就算你提前一天知道了消息 然后自己分析进行操作 最后还是反而会赔得更多 关键原因在于 我们根据自己的认知来进行分析 常常会有很多误区,非常主观 我们自己得到的结论 就算是对的 也不见得就是世界的共识 所以,光知道消息不行 还得看看社交媒体上其它人的观点 而且还要从正反两方面看 听到这里,我感觉好像明白什么了 Aaron 你今天要介绍的trading agents 是不是正好针对这些方面做了改进? 被你预判到了! 今天我们要介绍的这个框架啊 它其实是模拟了一个高水平的、真实的交易团队的这种协作 然后它里面有很多的 用大语言模型驱动的这种智能体 也就是Agent 每个智能体都有自己特定的角色 比如说 有做基本面分析的,有做情绪分析的 有做这种风险评估的 还有专门做交易的 它们会 通过这种 类似于辩论 来交换信息 最终结合历史数据来做出一个交易决策 作为一个技术派,我比较好奇 这些Agent里 应该也有做技术分析的吧? 就是看K线图指标那些 确实如此 还有看消息炒股的 它有专门的分析新闻和社交媒体的Agent 这个虚拟团队 会有像真实团队一样的组织架构吗? 它就是一个真实的团队 这个团队里 有我们刚刚说的这些Agent 相当于最前端的分析师 他们搜集资料、清洗数据 包括生成一些技术指标 在真实的团队中,分析师处在前线 他们搜集市场情报 然后交给团队的专家 也就是研究团队 正是如此 trading agents也模拟了这样一个团队 而且最有意思的是 它把研究团队分为两派 一派是乐观派,总认为现在是牛市 另一派则是悲观派 总把现在当成熊市 确实有点东西 我知道,在真实的团队中 这两派其实很难共存 即使一个团队中有这样两派 也很难进行理性的讨论 常常是相互看不起 尽管理想状态是兼听则明 实际上是一拍两散 所以 这确实是人工智能带来的颠覆性机会 那我们继续介绍它的架构 这两派会分别出具买方证据和卖方证据 把这些证据交给交易员 你这里说的交易员 应该还是系统中的Agent 而不是真实的交易员吧 对 没错没错没错 交易员会结合这两种意见 形成自己的交易建议 然后再交给风控团队 不用说,这仍然是一些Agent 对,就是另外一些Agents 在最后面就是基金经理的角色了 所以,整个系统就是由一些 分工很细、很明确的Agent组成的 看起来 如果我们自己在本地搭建出这样一个系统 不仅可以节省成本,更重要的是 能获得更全面、综合、深入的思考 以及人类无法想像的思维速度! 听上去确实是很赞的样子 那它的效果怎么样 有做过回测吗? 有的 这个框架实际上是Uc berkeley MIT等几个大学的中国学者提出来的 他们进行了比较深入的研究 在apple google和Amazon等标的上进行了回测 结论是年化收益会大幅提升近30%左右 而最大回撤非常惊人 在amazone上回撤最大,也只有2.11% 这些数据确实是非常优秀了! 大家可以去github上面玩一玩 自己动手试一试 大模型做金融的 我们见过的也不少了 那你认为这个模型有什么优势之处? 之前的很多模型吧 它要么就是 只是专注在一个单一的任务上面 像做个分析呀 或者搜搜数据什么的 要么就是说 它没有去很好的模拟 真实的交易团队里面的这种复杂的互动 对,交易不是一个人说了算 需要团队协作 所以这是这个项目最大的优势是它模拟了一个真实的交易团队 各个角色之间既分工、又协作 还会相互争吵 所以这有点像之前比较流行的GPT里面 让多个分析师之间对话讨论 反复讨论、思辨 最后接近最正确的答案? 对,很有点真理越辩越明的意思 恩 这也让我想到一个问题 毕竟我们知道,大模型是生成模型 它会自己加戏,会有幻觉,会编故事 那这样的话,各个Agent之间的讨论 还能做到基于事实 基于逻辑推理 确保严谨吗? 确实! 如果让AI之间 用我们说话的这种自然语言沟通 效率其实不高 而且信息传着传着 就容易跑偏 就像我们小时候玩那个 传话游戏 最后意思可能全拧了 哈哈 对传话游戏那个比喻很形象 那这个TradingAgents是怎么解决这些问题的? 它是设计了一种结构化的通讯协议 这个是非常重要的 因为传统的这种基于自然语言的通讯 它很容易出现问题 比如它会遗忘一些信息 或者说它会扭曲一些信息 特别是在这种复杂任务的情况下 那在trading agents中 智能体之间的交流 主要是 通过这种结构化的文档和图表 比如说 分析师团队他们会输出一个分析报告 然后这个报告里面会有一些 非常明确的这种指标和他的建议 交易员会根据这个分析报告 再输出一个决策的信号 同样也是有他的理由和证据 它们只有在辩论的时候 才会使用自然语言对话 所以整个这个通讯是非常高效的 也避免了这种信息的丢失 所以既利用大语言模型的优势 又利用结构化数据来限制它的缺点 所以它的改进从原理上就是不证自明的了 好的! 今天我们聊了这个Tradingagents 那么这一切对我们听众朋友来说 可能意味着什么呢 这里可能有一个值得我们再次思考的问题 当人工智能不再仅仅是一个个独立的分析工具 而是能够像人类团队一样 进行协作辩论 权衡利弊的时候 未来我们人类要怎么和这些 越来越聪明的AI同事一起工作 尤其是在金融这种高风险高回报 决策压力巨大的行业里 这种变化长远来看 会怎么改变我们对于专业知识 团队价值 甚至是角色过程的理解呢? 这个问题可能值得我们个量化人都想一想 以上就是这期播客的全部内容了 非常感谢大家的收听 这里也提醒大家别忘了订阅我们的量化好声音 对的 如果你想了解更多的量化资讯或者想要学习量化 欢迎大家订阅Quantide Research platform 这在里 我们提供了百余篇优质的文章和研报策略复现 并配有相关资料和可运行代码的notebook文件 此外 我们还开设有 量化24课和因子分析与机器学习策略 这两门课程 分别针对量化新手和专业的量化策略开发交易员 欢迎大家报名! 好的 那咱们下期再见啦 拜拜
量化好声音 睡前听一听 欢迎大家 我是Flora 我是Aaron 常常有粉丝来问啊 我很想入行量化 但是简历过不了关 怎么办呢 Aaron你也招过一些量化研究员了 你能不能给大家支个招 说说你作为面试官 愿意招什么样的人呢 好的 这方面可以分享的招数啊比较多 那今天呢 先给大家讲一招 就是打比赛 打比赛什么样的比赛 能够具体讲一讲吗 可以 那其实量化界有很多个重要的比赛 比如简街 千禧年他们都有比赛 那今天我们给大家介绍的呢 是Citadel的Datathon Citadel我知道 就是城堡投资嘛 它的创始人是肯尼斯·格里芬 这可是个传奇人物 大学起他就开始投资 到今年年初呢 他们管理了650亿美元的资产 这是世界上最赚钱的对冲基金之一了 所以他们组织的比赛 含金量可想而知 那赢得了这个比赛 基本上就拿到了顶级私募的门票 确实如此 那Citadel的Datathon 到底是个什么样的比赛 我们应该怎么报名呢 Citadel Datathon 它是一个数据科学竞赛 那这个名字呢 来自于马拉松的一个仿造词儿 类似的仿造词儿呢 还有hackathon等等 我知道的 hackathon是面向极限编程的一种挑战 所以说从名字上听起来 这个比赛就挺够劲儿的 对这个比赛 在量化和数据科学圈子里啊 关注度其实还挺高的 那今天呢 我们整合了一些资料 像是官方介绍 还有论坛上的一些讨论 甚至呢还有 一位冠军的经验分享 对所以我们今天的目标啊 就是要详细介绍这个比赛 以及怎么报名参加 又如何能成功的脱颖而出 好那咱们就直接切入主题啊 我们先来说说报名的事儿 好的我这边查了一些资料 Citadel一年常常会举行好几次的Datathon 分布在全球各个地区 先是在各个地区举行分赛 最后这些分赛的获胜者 甚至有可能被邀请到美国总部 去参加最后的决赛 那今年怎么样 现在报名还来得及不 到目前为止 今年还只是在2月份 举办了一次欧洲女性的Datathon 其他地区的Datathon目前还没有安排 一般来说啊 全年会有好几次的Datathon 所以 距离国内选手可以参加的亚洲Datathon 很可能是越来越近了 大家可以随时准备着 那如果我想要参加今年的Datathon 我从哪里可以得到报名的通知信息 一般来说 我们随时关注Citadel官网主页就好了 在Citadel官网主页 有一个叫做careers的栏目 找到其中的programs & events 再到undergraduates菜单下面 就可以找到Datathon活动了 听起来要找到这个活动页面并不难 不过呢你等会会把公众号上面啊 会提供一个链接信息对吧 是的 那对报名者会有哪些要求 对国内的选手来说啊 要求是在读本科、满18周岁 并且学业表现良好 预计呢在26年12月到28年6月期间毕业 就可以参加这个比赛了 那如果你是博士生 就要参加博士数据马拉松这 个没有毕业时间的要求 只要学业良好就可以了 这里的学业表现良好是什么意思 要求必须是985吗 这是个好问题 Datathon并没有对国内参赛者的学校 做出要求 不过啊从过往的数据来看 985学校的学生参赛呀 确实是会有一些主场优势的 这个怎么理解 比赛不是在线上进行的吗 是的从国内之前的比赛经验来看啊 先是线上申请报名 这个报名 可能会跟前程无忧 这样的招聘网站合作 申请者在线提交简历和参加评估 然后啊官方会从中选择一部分选手 邀请他们参加线下的比赛 那线下比赛的举办地点呢 就会是像在北大清华 复旦和华科这样的学校了 而且这些学校还会通过自己的渠道 发布赛程通知 那这么说起来 985学校和北京上海武汉等一线城市 确实会享受到一些主场的优势 对的甚至如果学校在外地 会不会主办方在邀请参赛上 考虑会务安排难度而减少名额 那这个我们就不得而知了 对 所以啊 如果你没有进入Datathon的比赛的 这样一个机会 怎么办那么其实对普通人来讲呢 还有很多去进入量化这一行的机会 那这部分呢 我们就在后面的节目中再来介绍 一句话啊 只要有创新的思维办法 总比困难多 好的刚刚 Aaron你提到了在线提交简历的事儿 以及在线评估的事情 这方面你也给大家介绍一下吧 好那这个评估需要一个小时内完成 题目呢大概 是15道选择和填空题 那目前有一些真题泄露出来吗 有内容比较多 那这些内容呢 我们就放在播客对应的资料当中了 题目呢大概是两类 一类呢是报名环节的在线评估真题 我们提供了一个2024年的真题 供大家参考 另外一类呢 是比赛环节的试题 这部分的题目啊 我们有10套左右 都有答案 哦那这些题目的难度怎么样呢 可不可以透露一些大致有哪些方向呢 题目整体上看不算难 以数理统计、机器学习和Python编程为主 听上去 这好像都是我们匡醍课程覆盖的内容 啊哈哈 现在这是广告时间了 对那试题呢 我们放在Quantide research platform 这个平台上了 大家可以在订阅之后进行查看 假设我们过了评估阶段 那么要如何准备正式的比赛呢 一方面 可以从我们收集到的历年的试题当中 去进行挖掘 比如呢 这些题他要求使用什么样的技术 数据又会以什么样的格式来提供 因为比赛他是有时间要求的 如果呢我们对数据集的格式不熟悉 在数据预处理阶段 我们就会花很多时间 那显然就会在进度上显著落后于他人 这点呢 在我们后面的分享中还会看到 非常有道理 其实这些我们从过往的真题中 应该都能够看出来 有哪些是必须掌握的基本功 除了这些之外 有没有真正参加过比赛的人 可以分享一下经验呢 还真有那这里呢 我们采访了David Veitch 他赢得了2021年的博士数据马拉松冠军 他是多伦多大学的统计学博士 现在担任美国银行的固收交易员 他是啊 2021年的PHD Datathon 作为博士呢 他是一般要求是独立参赛啊 而不是组队 了解了那这里 你可能要给大家再介绍一下 组队的事儿 对博士阶段的比赛 一般是独立参赛 其他阶段的Datathon 官方要求呢 还是组队参赛 组队呢可以自己组织 也可以由官方指派 当然了如果是自己组队的话 可能合作上会更默契 也会从而就更有优势 那比赛时间是多久 最后提交的成果又是什么样的呢 以David参加的比赛为例啊 那一年呢 比赛是时间是一周 最后要求提交一份15页左右的报告 参赛的题目是利用气候相关数据 来发现和分析 与全球变暖成因及影响相关的模式 听起来这个是属于生态学的范畴了呀 那大家可能会关心 如果说我们碰到这样的题目 它是属于自己之前没有接触过的领域 那怎么办呢 对通常来说 试题都会超过你博士阶段的研究范围 而且呢时间只有一周 所以你必须充分利用自己啊 已有的技能 那对David Veitch来讲 他对时间序列分析非常熟悉 所以在比赛当中啊 一开始就打定主意 要利用平稳时间序列分析 来分析和研究数据 以期呢找到一个结论 同时呢 他也啊对R语言是掌握得非常熟练 那么这对他清洗数据 以及啊得出最终的结论 以及结论的可视化 都起到了关键的作用 对那从David的介绍 来看在这个过程当中 懂得如何搜索 特别是找到那些补充数据集 也是非常重要的 那比如说 David在进行了几天的研究之后啊 发现他的模型需要一个雨水数据集 这个可是主办方没有提供的 好在他很快通过谷歌搜索 找到了一个雨水数据集 并且呢 还附赠了一个更好的温度数据集 与组织方提供的数据集相比啊 多出了一类非常重要的数据 就是最高温度 所以David他在面对问题的时候 非常灵活 办法也很多 对的但是在处理这两个数据集时 其实David还是遇到了很多问题的 这些数据 是以他没有见过的格式存储的 好在最后 他在网上找到了 如何去解析这种格式的文章 所以这就看出来 我们平时多练习的重要性了 在解决工程问题上 你花时间多了 那么在最重要的分析构建模型上面 花的时间必然就会少 是的这些是hard skill方面的技巧 那最后呢 David还分享了一个没有证据 但是他自己认为是非常重要的观点 就是你不能假设评委什么都懂 或者他有足够的时间来研究你的报告 他的原话是这样的 我知道评委的注意力有限 因此啊他对可视化是非常重视的 所以David的经验总结起来 首先呢你要熟悉一门编程语言 尤其是跟统计相关的库 是的从David的例子来看是这样子的 时间序列分析呢 是他的专长 对我们熟悉Python的听众来说呢 可能需要掌握一下 Scipy和statsmodels这两个库 另外在这种级别的比赛中 可能也需要掌握机器学习库 比如Sklearn 另外他也提到 我知道评委的注意力有限 这也是很有意思的一句话 那实际上 我觉得这是一个非常重要的经验 因为不止在这样一个大赛当中有评委 在工作当中 我们的领导和用户 他们都是评委 而他们呢 都有一个共同点 就是注意力有限 如何把我们的工作更好的呈现出来 这也很重要 还有一点就是平常我们也需要多关注 在什么地方你可以找到有用的数据结 那尽管我们可以临时去搜索 但毕竟呢 比赛它是有时间限制的 如果有自己一些熟悉的站点 这样就不容易跑空 对的我记得 我们在因子挖掘与机器学习策略 这门课中 也讲到了去哪里找数据对吧 对毕竟机器学习最重要的部分之一 就是数据 data song比赛的奖项是怎么设置的呢 一般各个地区赛他都会有一到三等奖 不过名额不多 最后的决赛呢 一般只授予一个小组 不过只要你进了决赛 那即使拿不到奖金和证书 各种现场照片 新闻报道也不会少 那这些都是可以记入自己的简历的 对找工作非常有帮助 好的那关于Datathon 我们应该介绍的很全面了 如果听众朋友们 要想获取评估阶段和比赛阶段的真题 这个资料啊 我们对会员都是开放的 那你要不要介绍一下 会员都有哪些福利 这个会员啊 指的是Quantide Research platform 我们在公众号发的一些文章 许多都配有Notebook 这些notebook 都是在这个平台上 可以查看和运行的 对关于Datathon的真题 我们也会陆续放进来 好的以上就是本期的所有内容啦 我们下期再见!再见!
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧