Overview
这页不是把两份体验报告简单贴上来,而是把产品分析、并行测试、逐题重评分和原始问答证据串成一个招聘可读的案例。我要展示的不是“我会做表”,而是我能把一个主观、复杂、容易失真的使用体验问题,收束成可比较、可解释、可复核的判断框架。
Case Study
WindClaw vs 东方财富 Skills
AI 投研产品对比案例页
Case index
先看结论,再按需要下钻到单产品拆解、测试方法和附录材料。
Overview
这页不是把两份体验报告简单贴上来,而是把产品分析、并行测试、逐题重评分和原始问答证据串成一个招聘可读的案例。我要展示的不是“我会做表”,而是我能把一个主观、复杂、容易失真的使用体验问题,收束成可比较、可解释、可复核的判断框架。
My role
独立完成选题、评判标准设计、问题集搭建、双产品并行测试、逐题重评分和最终结论整理。
Comparison summary
如果从 AI 产品经理招聘的视角看,这个案例最重要的不是“谁赢了”,而是我如何定义胜负。结论层面,东方财富 Skills 在题意承接、结构化表达和长文成稿感上更成熟;WindClaw 在单标数据快查、表格组织和部分简单查询场景里并不弱,但一旦进入新闻、政策、舆情或筛选类任务,题意偏移和边界失控的问题会更明显。
东方财富 Skills 的优势在于更贴题,也更像真正完成一份分析任务;WindClaw 更像结构好看的金融问答生成器。
东方财富 Skills 更强在政策、舆情、策略和横向比较;WindClaw 更稳在字段明确、范围收敛的单标数据查询和表格化输出。
两者一旦检索不准,都不愿意停下来,而是继续把结构写满,用泛化分析补足内容,容易掩盖时间错位、对象错配和口径混杂。
这次案例让我更确认金融 AI 的核心护城河仍然是准确、及时、可核验的数据能力。产品体验当然重要,但在投研场景里,可靠信息源始终先于炫目的交互形式。
Product dossiers
同样的结构,用来强调两款产品的能力边界、测试表现和最终判断。
Dossier 01
东方财富 Skills 更像一个已经能拿来交付初稿的金融检索 + 投研表达助手。它把资讯搜索、金融数据、智能选股和账户管理拆成明确 skill,再借东方财富自有 API 和数据库去支撑输出,所以整体更像有产品化边界的系统,而不只是套壳对话。
核心能力是把东方财富的金融数据库接进 openclaw,让模型不只靠训练知识和网页搜索回答问题。强项在 A 股数据查询、新闻检索、政策梳理、选股和结构化长文输出;边界是依赖特定数据库口径,部分研究报告和海外信息的权威性判断仍不够稳。
它把投研流程拆成资讯搜索、金融数据、智能选股、自选管理和模拟组合管理几个模块,本质是在降低普通用户提问门槛,同时保留金融数据的专业口径。对产品经理而言,这种“任务能力模块化”的设计很值得看,因为它兼顾了明确入口和数据库约束。
在新闻、舆情、政策、对比和策略类题目里,东方财富 Skills 更经常正面回应题目要求,而不是绕开问题。它的结构也更稳定,常常能形成“结论 - 数据 - 解释 - 风险”这种接近成稿的阅读顺序。
28 题重评分后,它的主要加分项是题意承接能力、结构化表达和中长篇分析成熟度。主要失分点在财报时间错位、筛选题板块污染,以及少数长文里把综合判断写得过于确定。
优势
风险 / 短板
Dossier 02
WindClaw 的产品气质更强金融终端工具感,背后是 Wind 数据库和一组面向投研任务的模板入口。它的优点不是“会说”,而是给用户一种可以直接在专业语境下聊股票、谈策略、做对比的感觉。
WindClaw 强在结构化金融数据和专业投研语境,尤其适合个股、估值、配置和框架型分析。但它对实时 web 搜索依赖额外配置,新闻、公告、政策和研报获取明显受限,导致很多非结构化信息题目只能退化成数据或趋势概览。
它用“聊股票、找机会、做对比、谈大势、论策略”这类任务入口把复杂投研流程产品化,让用户不必先想 prompt 结构,就能进入一个熟悉的研究动作里。这是很典型的“面向任务而不是面向功能”设计。
WindClaw 在单标数据、多字段查询和部分框架型长文里读起来很顺,表格也漂亮。但一旦题目明确要求新闻事件、舆情进展、具体政策或研究报告,它很容易用销量、财务或泛行业背景替代真正的问题。
28 题重评分后,它的主要优势是信息整理能力、表格化输出和简单数据快查;失分主要来自题不对题、事实与推断混写,以及筛选口径前后不一。也就是说,它经常看起来比真实质量更完整。
优势
风险 / 短板
How I evaluated it
这次案例刻意把“体验感受”拆成可以重复执行的评测流程。核心不是给两个产品打一个主观印象分,而是控制问题、时间、追问、上下文和判分口径,让结果尽量反映产品能力本身,而不是模型偶然发挥。
我把回答质量拆成四个维度:内容完整性与准确性、结构清晰度、格式可用性、解读质量。这个标准专门针对金融分析场景,重点看它有没有正面回答题目、事实边界是否清楚、读者能否快速定位结论与证据,以及解读有没有建立在已证实信息上。
所有题目尽量保持相同 prompt、相同追问轮数限制、相近测试时间,并控制上下文窗口,避免把“调教产品”的结果误当成产品本身能力。同时我也单独区分了“拿不到数据”和“拿到数据但不会组织表达”这两类问题。
题库覆盖新闻检索、公司公告、板块异动、政策研究、数据查询、多条件筛选、横向比较、宏观判断和配置建议。这样既能测简单字段能力,也能测复杂场景下的命中率、结构化表达和克制程度。
对两份原始测试报告,我又做了一轮逐题重评分和外部事实抽核,避免初始体验报告被模型表达风格误导。重评分文档因此承担“量化结果”和“失分理由”两层作用,是这次案例里最接近判断底稿的部分。
Appendix
下面保留 6 份 Markdown 文档。产品深度分析和 28 题体验评分继续保留页内阅读,但默认折叠,按需展开查看;两份原始测试实录因为篇幅过长,改为直接下载查看。
Appendix group
产品深度分析和 28 题评分保留页内阅读,但默认折叠,原始测试实录改为下载查看。
东方财富Skills产品深度分析
| Skill 名称 | 功能概述 | 适用场景 | 使用示例 |
|---|---|---|---|
| 妙想资讯搜索 skill | 1. 实时新闻:聚合权威资讯源,提供最新金融新闻 2. 关键词搜索:支持股票名称、代码、概念等搜索 3. 时间筛选:可限定最近一周、一月等时间范围 4. 事件追踪:支持追踪特定事件、概念的热度变化 | 1. 查找特定股票的最新消息和公告 2. 了解某个行业或概念的近期动态 3. 追踪市场热点和舆论趋势 4. 关注宏观经济要闻 | 1. 搜索个股新闻:格力电器最新研报、贵州茅台机构观点 2. 搜索板块 / 主题:商业航天板块近期新闻、新能源政策解读 3. 综合解读:今日大盘异动原因、北向资金流向解读 |
| 妙想金融数据 skill | 1. 支持标的范围:当前支持沪深京 A 股 2. 财务指标查询:PE、PB、ROE 等核心指标 3. 财报数据:营收、利润、毛利率、净利率等 4. 实时和历史行情:当日实时及多年历史行情查询 5. 同比环比:包含同比和环比变化数据 | 1. 了解公司的估值水平(PE、PB) 2. 分析公司的盈利能力(ROE、毛利率) 3. 对比多家公司的基本面数据 4. 查看公司历史业绩变化 | 1. 查询单项指标:查一下贵州茅台的 PE 是多少 2. 查询多项指标:帮我查一下招商银行的 PE、PB 和 ROE |
| 妙想智能选股 skill | 1. 多条件组合筛选:同时设置多个筛选条件 2. 技术面选股:按均线、MACD、成交量等指标筛选 3. 基本面选股:按 PE、ROE、营收增速等财务指标筛选 | 1. 寻找低估值的价值股 2. 筛选技术形态良好的成长股 3. 构建特定行业的股票池 4. 过滤不符合投资标准的股票 | 1. 按估值筛选:帮我选出 PE 小于 15 的银行股 2. 按盈利能力筛选:选出 ROE 大于 20%,且毛利率大于 30% 的股票 3. 多条件组合:帮我筛选 PE 在 10-20 之间,ROE 大于 15%,市值大于 500 亿的股票 |
| 妙想自选管理 skill | 链接东方财富通行证自选股数据(仅支持 A 股),通过 openclaw 查询和管理自选股 | 1. 自然语言请求 2. 查询自选股 3. 管理(添加 / 删除)自选股 4. openclaw 与东方财富同步 | 1. 查询自选股:查询我的自选股列表 2. 添加自选股:把贵州茅台添加到我的自选股列表 3. 删除自选股:把贵州茅台从我的自选股列表删除 |
| 妙想模拟组合管理 skill | 提供东方财富模拟组合管理能力,支持组合新建、持仓查询、买入卖出、撤单、委托查询、资金查询等 |
数据来源于东方财富妙想Skills使用文档
注意:为什么东方财富妙想Skills能实现对准确金融信息的查询与反馈?
普通 skill 往往只是提示词模板,模型只能靠自己已有知识,或者普通网页搜索。东方财富这套 skill 不是单纯的提示词,它明确接了东方财富官方 API。Agent能够通过skill连接并查询东方财富的专业数据库,并根据skill中的提示词模板,得到用户想要的信息
鉴于资讯搜索 、金融数据、智能选股功能相近,而自选管理、模拟组合管理功能相近,所以将其拆成两部分分析(拆分依据:能否进行交互,而不是只是单方面信息查询)
/finskillshub/api/claw/news-search/finskillshub/api/claw/query/finskillshub/api/claw/stock-screen总的来说,自选管理不涉及资金账户状态;模拟组合管理涉及仓位与交易行为。
设计逻辑:
(1)资讯搜索 、金融数据、智能选股
(2)自选管理、模拟组合管理
暂时没有具体的价格名录
资讯搜索 、金融数据、智能选股:50次
模拟组合管理:1000次
自选管理:200次
资讯搜索 、金融数据、智能选股:300次
模拟组合管理:3000次
自选管理:400次
评判对象:/Users/sutianrun/Desktop/compare/东方财富skills产品体验报告.md
评判标准:金融分析型产品体验评判标准 v1
评判口径:外部事实抽核 + 文档内容评估
说明:本次重点看四件事:有没有正面回答题目、关键事实是否站得住、结构是否便于扫读、解读是否建立在已证实信息上。
| 序号 | 题目简称 | 内容完整性与准确性 | 结构清晰度 | 格式可用性 | 解读质量 | 简要原因 |
|---|---|---|---|---|---|---|
| 1 | 比亚迪2024年报公告总结 | 1/5 | 3/5 | 清单 | 1/5 | 回答自己已明确承认“实际数据显示的是2023年业绩预告”,且净利润写成“2900-3100亿元”明显失真,属于严重时间错位和数值错配。 |
| 2 | 2026年1月新能源行业重大新闻 | 4/5 | 4/5 | 清单 | 3/5 | 这次确实列出了政策、行业和企业事件,明显比用销量替代新闻更贴题;不足是部分事件时间边界和重要性筛选仍偏松。 |
| 3 | 2026年1月A股半导体上涨原因 | 4/5 | 4/5 | 清单 | 4/5 | 已按政策、行业消息、资金面分层展开,核心驱动解释较完整;少量论据跨到1月之后,时点纯度略弱。 |
| 4 | 小米汽车2025年舆情追踪 | 4/5 | 4/5 | 清单 | 4/5 | 能按“起因-发酵-回应-进展”组织具体事件,明显命中题目要求;不足是部分事件延伸到2026年,且个别细节仍需官方结论支撑。 |
| 5 | 2024年并购重组政策与影响 | 4/5 | 5/5 | 清单 | 4/5 | “国九条”“并购六条”和交易所规则修订都覆盖到了,主线清楚;个别市场活跃度数据和地方配套延伸偏多,但不影响主体判断。 |
| 6 | 2025年AI行业研究报告 | 3/5 | 4/5 | 清单 | 3/5 | 终于给出了3份报告和结论,但报告权威性不均,尤其第三份更像行业观察而非代表性研究报告,信源质量一般。 |
| 7 | 贵州茅台最新价/PE/总市值 | 4/5 | 4/5 | 清单 | 3/5 | 核心字段和时间都给到了,且与抽核行情基本一致;问题是延展分析偏模板化,信息增量有限。 |
| 8 | 宁德时代成交额/换手率/PB | 4/5 | 4/5 | 清单 | 3/5 | 题目字段回答完整,还补了A/H两地口径;不过港股信息属于额外展开,核心解读仍偏常规。 |
| 9 | 比亚迪近三年营收/归母净利润/ROE | 3/5 | 4/5 | 表格 | 3/5 | 近三年营收和净利给得较完整,但表格本身缺少ROE列,ROE只在后文文字里补充,完整性被拖了一档。 |
| 10 | 招商银行近五年总资产/净利/负债率 | 4/5 | 4/5 | 表格 | 3/5 | 五年维度终于补齐,且抽核与已披露年报口径大体一致;不足是A/H并列展开较冗长,核心信息可以更收敛。 |
| 11 | 贵州茅台 vs 五粮液估值对比 | 4/5 | 5/5 | 表格 | 4/5 | PE、PB、ROE都正面回答,且估值溢价和盈利能力关系解释清楚,属于完成度较高的对比题。 |
| 12 | 宁德时代 vs 比亚迪核心指标对比 | 4/5 | 4/5 | 表格 | 4/5 | 市值、PE、净利润增速都答到了,差异也解释得较清楚;不足是少量A/H混用和年度预测延伸让口径略复杂。 |
| 13 | A股ROE>15%公司筛选 | 2/5 | 4/5 | 表格 | 2/5 | 虽然做了筛选,但“代表性公司”里混入了 *ST 和异常样本,且自称代表性却明显缺少质量筛选,口径不严。 |
| 14 | 消费板块PE<25公司筛选 | 4/5 | 4/5 | 表格 | 3/5 | 基于消费相关指数成份做筛选,结果比上一版更有依据;不过“代表性”仍偏向贴着25倍上限挑样本,结论价值一般。 |
| 15 | 消费股PE<30且三年营收增长 | 3/5 | 4/5 | 表格 | 3/5 | 条件筛选比前面更完整,但“消费股”边界被放得很宽,汽车零部件占比偏高,题意贴合度不算理想。 |
| 16 | 制造业净利>5亿且负债率<60% | 4/5 | 4/5 | 表格 | 3/5 | 条件基本命中,名单也比上一版干净;但“制造业”仍混入部分泛题材口径,且代表性选择带有较强主观性。 |
| 17 | 芯片板块净利润增长快公司筛选 | 2/5 | 4/5 | 表格 | 2/5 | 仍然存在板块污染,PCB、面板、通信设备等被一并纳入“芯片板块”,导致筛选结果失真。 |
| 18 | 新能源板块ROE+换手率筛选 | 1/5 | 4/5 | 表格 | 1/5 | 结果中出现 *ST威尔、ST德豪、冰川网络 等明显非新能源核心样本,属于严重板块错配,筛选结果基本不可直接用。 |
| 19 | 宁德时代基本面与投资逻辑 | 4/5 | 5/5 | 清单 | 4/5 | 基本面、商业模式、竞争优势、投资逻辑和风险都覆盖到了,结构很成熟;少量细节数据和券商预期偏多,证据边界略松。 |
| 20 | 腾讯最近一期财报解读 | 4/5 | 5/5 | 清单 | 4/5 | 收入来源、利润改善和市场关注信号三部分都答到了,且与官方2025业绩方向基本一致;部分AI投入细项更像综合口径,严谨性稍弱。 |
| 21 | A股低估方向挖掘 | 4/5 | 4/5 | 清单 | 4/5 | 给出了3个方向、对应逻辑、催化剂和风险,整体完成度不错;“低估”判断仍带一定主观性,但不影响整体可用性。 |
| 22 | 机构增配赛道与龙头识别 | 4/5 | 4/5 | 清单 | 4/5 | 这次不再是原始表堆砌,而是能明确说出赛道、依据和龙头,完成度明显提升;少量持仓和资金口径仍需用户二次核验。 |
| 23 | 理想 vs 小鹏投资价值 | 4/5 | 5/5 | 表格 | 4/5 | 商业模式、盈利能力、估值逻辑、成长性四个维度都展开了,投资者分层建议也清楚;不足是预测值和券商目标价占比略高。 |
| 24 | 茅台/五粮液/汾酒投资价值 | 4/5 | 5/5 | 表格 | 4/5 | 对稳健型投资者的判断逻辑比较完整,财务、估值、风险和配置建议都覆盖到了,属于质量较高的对比题。 |
| 25 | 未来一个季度A股主线判断 | 4/5 | 5/5 | 清单 | 4/5 | 主线、辅助主线、支持逻辑和反证风险都写全了,结构非常完整;因为本质是判断题,事实分主要受宏观假设影响而非硬错误。 |
| 26 | 新能源车产业链周期判断 | 4/5 | 5/5 | 清单 | 4/5 | 周期阶段、驱动力变化和未来两个季度观察变量都很清楚,读者可直接拿来跟踪;不足是部分全球统计口径未单独注明来源。 |
| 27 | 100万中风险权益配置方案 | 4/5 | 5/5 | 表格 | 4/5 | 配置比例、动态调整条件、风险提示和执行节奏都覆盖到位,实操性很强;少量收益假设偏理想化,但不构成硬伤。 |
| 28 | 机器人板块是否值得关注 | 4/5 | 5/5 | 清单 | 4/5 | 产业趋势、估值、催化和拥挤度四维回答完整,结论也相对克制;弱点在于部分产业进展和资金热度数据偏综合口径,不够“硬”。 |
这份东方财富 Skills 报告整体表现为中上水平,明显优于上一份对照样本:
题意匹配度更高、答案组织更完整、分析展开更像正式投研输出个别题目事实口径错误、筛选题板块污染、部分长文过度依赖综合研报式表述简单说,它已经不只是“会排版”,而是大部分题目都能正面回答;但一旦进入选股筛选、板块归类或具体公告口径,仍会暴露出一些金融产品里很关键的严谨性问题。
时间口径或财报口径错位
板块筛选污染
分析很完整,但证据边界偏松
题意承接能力
结构化表达能力
中长篇投研式分析能力
东方财富 Skills 的优势是答题贴题度高、结构化能力强、长文分析较成熟;主要短板是个别题目存在财报时间错位,以及筛选题中板块归类不严、样本污染明显。
本次重点抽核的关键事实包括:
2023年业绩预告,且数值级别明显异常“并购六条”发布时间为2024年9月24日参考来源:
原始测试实录过长,不在页面内展开,保留 Markdown 下载以供完整查看。
Download MarkdownAppendix group
产品深度分析和 28 题评分保留页内阅读,但默认折叠,原始使用体验改为下载查看。
WindClaw产品深度分析
将原来复杂且门槛高的 AI 投研流程,变成普通投资者也能上手的产品
是一个AI 投研智能体平台,支持多 Agent 协同与本地运行的专业化投研工具
| 我的投资小龙虾 | 万得官方智能体 | ||
|---|---|---|---|
| 微信ClawBot | 连接WindClaw与微信,发送指令,随时随地控制WindClaw | 最新动态 | WindClaw最新的相关信息 |
| 聊股票 | 一起分析公司的基本面、商业模式和竞争优势,判断它是否值得投资。 | 精选案例 | Wind Alice金融大模型的相关调研分析报告 |
| 找机会 | 让投资小龙虾帮你从已知信息中,挖掘潜在投资机会。 | 常见问题 | 对Wind Alice使用的模型,以及数据的透明性、输入数据的安全性、金融场景的合规性的相关解释 |
| 做对比 | 通过横向比较不同公司或行业,找到更优选择。 | 关于我们 | 相关内容 |
| 谈大势 | 讨论宏观经济、行业趋势和市场周期,理解市场的大方向。 | ||
| 论策略 | 一起寻找新的投资思路和市场机会,挖掘可能跑出来的行业和股票。 |
功能描述:
设计逻辑:
用户心理:
我的评价:本质上是openclaw的低风险应用。但是很符合金融场景,尤其是金融数据的定时推送,无论对于普通投资者买股票还是专业投资者做研究都很有用
更多内容见 AI投研产品具体使用体验测试 中关于WindClaw的测评情况
其他:每日免费赠送5000积分
评判对象:/Users/sutianrun/Desktop/WindClaw产品使用体验.md
评判标准:金融分析型产品体验评判标准 v1
评判口径:外部事实抽核 + 文档内容评估
说明:本次以“是否回答到题、关键事实是否站得住、结构是否清楚、分析是否克制”为主;外部核验采用关键事实抽查,不等同于逐项审计。
| 序号 | 题目简称 | 内容完整性与准确性 | 结构清晰度 | 格式可用性 | 解读质量 | 简要原因 |
|---|---|---|---|---|---|---|
| 1 | 比亚迪2024年报公告总结 | 4/5 | 5/5 | 表格 | 4/5 | 外部抽核显示年报核心数据与官方年报大体一致,但题目要求覆盖“业绩预告/快报/正式财报公告”,回答实际上只落在正式年报。 |
| 2 | 2026年1月新能源行业重大新闻 | 1/5 | 4/5 | 表格 | 2/5 | 题目要“重要新闻/重大事件”,回答基本没有列新闻事件,而是用销量、装机和财务数据替代,属于明显题不对题。 |
| 3 | 2026年1月A股半导体上涨原因 | 3/5 | 5/5 | 表格 | 3/5 | 资金面拆解较完整,但“政策因素”主要是推断,缺少对应月份的具体政策或行业消息支撑,区分度不够扎实。 |
| 4 | 小米汽车2025年舆情追踪 | 1/5 | 4/5 | 清单 | 1/5 | 题目要求梳理具体舆情事件、发酵、回应和进展,回答大多是基于销量和传闻做推演,缺少可核验事件与官方回应。 |
| 5 | 2024年并购重组政策与影响 | 2/5 | 3/5 | 清单 | 2/5 | 外部抽核显示“并购六条”发布时间是2024年9月24日,不是回答中写的5月;同时政策覆盖明显不足,影响分析偏泛。 |
| 6 | 2025年AI行业研究报告 | 1/5 | 4/5 | 清单 | 2/5 | 题目要列“3份代表性报告”,回答却变成公司/产业概览,没有给出报告名称、机构和核心结论,核心任务未完成。 |
| 7 | 贵州茅台最新价/PE/总市值 | 4/5 | 5/5 | 表格 | 3/5 | 字段齐全、时间写明,外部行情抽核与文中数值接近;不足在于解释较泛,更多是常规描述。 |
| 8 | 宁德时代成交额/换手率/PB | 4/5 | 5/5 | 表格 | 3/5 | 回答直接命中题目字段,时间也给出;解读属于常规估值描述,深度一般。 |
| 9 | 比亚迪近三年营收/净利/ROE | 2/5 | 4/5 | 表格 | 3/5 | “近三年”却只给了2023、2024和“2025暂无数据”,既没有补足2022,也没有把时间口径解释得足够清楚。 |
| 10 | 招商银行近五年总资产/净利/负债率 | 2/5 | 4/5 | 表格 | 3/5 | 外部抽核显示最新已披露口径更接近2025三季报而非完整2025年报,回答把未充分披露的年度数据直接写满,准确性存疑。 |
| 11 | 贵州茅台 vs 五粮液估值对比 | 4/5 | 5/5 | 表格 | 4/5 | 指标选择与结论对应关系较好,表格清晰,结论也区分了“质量溢价”和“估值性价比”。 |
| 12 | 宁德时代 vs 比亚迪核心指标对比 | 3/5 | 4/5 | 表格 | 3/5 | 把实际数据、预测数据和缺失项混在一张表里,虽然能看出比较逻辑,但口径不够统一。 |
| 13 | A股ROE>15%公司筛选 | 2/5 | 4/5 | 表格 | 2/5 | 回答先说“剔除ST/*ST及异常样本”,结果名单里仍出现风险警示和一次性因素很强的公司,筛选纪律不够严格。 |
| 14 | 消费板块PE<25公司筛选 | 3/5 | 4/5 | 表格 | 3/5 | 基本完成筛选任务,但“消费板块”边界偏宽,部分公司归类更像泛消费而非狭义消费。 |
| 15 | 消费股PE<30且三年营收增长 | 2/5 | 4/5 | 表格 | 2/5 | 多家公司行业归类明显放宽,如安防、汽车零部件、商用车被并入消费股,导致筛选口径偏离题意。 |
| 16 | 制造业净利>5亿且负债率<60% | 4/5 | 5/5 | 表格 | 3/5 | 条件匹配度整体较高,名单可读性也不错;不足是“代表性公司”主观性较强,缺少筛选时间点说明。 |
| 17 | 芯片板块净利润增长快公司筛选 | 2/5 | 4/5 | 表格 | 2/5 | 名单中混入了并非严格芯片板块的公司,且包含风险警示样本,板块定义和筛选口径都不够严谨。 |
| 18 | 新能源板块ROE+换手率筛选 | 3/5 | 4/5 | 表格 | 3/5 | 结果数量解释清楚,但换手率口径没有展开说明,且板块边界依然偏宽,属于可用但不够严。 |
| 19 | 宁德时代基本面与投资逻辑 | 3/5 | 5/5 | 表格 | 3/5 | 框架完整、可读性强,但大量2025经营细项和竞争格局判断缺少明确出处,部分结论说得过满。 |
| 20 | 腾讯最近一期财报解读 | 4/5 | 5/5 | 表格 | 4/5 | 外部抽核显示收入、利润、毛利率等核心方向与官方2025年度业绩基本一致;不足是部分细分拆解和回购表述偏推算。 |
| 21 | A股低估方向挖掘 | 3/5 | 4/5 | 清单 | 3/5 | 提供了3个方向、催化剂和风险,完成度不错,但个别“低估”依据与文中估值分位表述存在张力,论证不够扎实。 |
| 22 | 机构增配赛道与龙头识别 | 1/5 | 1/5 | 表格 | 1/5 | 基本是原始大表堆砌,既没有提炼“哪些赛道被增配”,也没有清楚给出依据和龙头,几乎不可直接使用。 |
| 23 | 理想 vs 小鹏投资价值 | 3/5 | 5/5 | 表格 | 3/5 | 对比框架完整,但使用了较多2025-2026口径数据和预测,部分财务与交付表述缺少清晰来源说明。 |
| 24 | 茅台/五粮液/汾酒投资价值 | 3/5 | 5/5 | 表格 | 4/5 | “稳健型投资者”视角切得较准,结论也有可读性;问题在于较多2025-2026预测值被直接纳入核心判断。 |
| 25 | 未来一个季度A股主线判断 | 3/5 | 4/5 | 清单 | 3/5 | 有主线、有反证风险,形式完整;但核心判断对短期宏观、政策和资金的假设较重,证据链不算强。 |
| 26 | 新能源车产业链周期判断 | 3/5 | 5/5 | 表格 | 4/5 | 周期框架、观察变量和风险提示都比较成熟,但部分关键数据和阶段划分缺少更直接的可核验证据。 |
| 27 | 100万中风险权益配置方案 | 4/5 | 5/5 | 表格 | 4/5 | 对配置思路、比例、动态调整和风险提示覆盖完整,实操性强;主要扣分点是对未来市场环境的判断较依赖场景假设。 |
| 28 | 机器人板块是否值得关注 | 2/5 | 5/5 | 表格 | 2/5 | 分析框架很完整,但部分关键依据明显可疑,例如ETF资金流出数值异常夸张,导致结论基础不稳。 |
WindClaw 这 28 题的整体表现属于中等偏上,但分化明显:
结构组织、表格化呈现、分析框架完整题意匹配、事实严谨性、筛选口径一致性如果只看“好不好读”,整体体验不差;但如果按金融分析产品的标准看“是否真回答到点上、能不能直接用于判断”,质量波动很大。
题不对题
事实与推断边界不清
筛选口径不严
信息整理能力
简单数据查询能力
中长篇分析框架搭建能力
可直接摘录为一句话总评:
WindClaw 的长处是结构清晰、表格化能力强、分析框架完整;短板是新闻/政策/舆情类题目经常题不对题,且部分答案存在事实与推断混写、筛选口径不严的问题。
本次重点抽核了以下高风险事实:
2024年9月24日,不是5月2022年报-2025三季报,并非完整2025年报参考来源:
原始测试实录过长,不在页面内展开,保留 Markdown 下载以供完整查看。
Download MarkdownWhat this case proves
我想证明的不是“我会写一份竞品分析”,而是我能定义问题、控制变量、设计标准,并把体验判断转化成更可信的产品结论。