基于AI与LLM的智能股票分析系统开发实践-AI智能范式网

基于AI与LLM的智能股票分析系统开发实践

帝京日语宋老师

1. 项目概述：构建基于AI的股票分析系统

这个项目实现了一个智能化的股票分析系统，通过整合多种数据源和AI技术，为投资者提供全面的股票评估报告。系统核心由多个模块组成，包括财报估值分析、期权多空信号提取、技术面分析等，最终通过大语言模型(LLM)进行综合评分和投资建议生成。

作为一名长期从事量化投资系统开发的工程师，我发现传统股票分析工具往往存在几个痛点：一是数据分散，需要人工整合；二是分析维度单一，难以全面评估；三是结论不够直观，缺乏可操作性建议。这个项目正是为了解决这些问题而设计的。

系统采用模块化架构，每个模块专注于特定功能：

财报估值模块：获取并解析财务数据
期权分析模块：计算多空信号
技术分析模块：评估趋势指标
LLM整合模块：生成综合评分和建议

这种设计既保证了各功能的独立性，又通过标准化接口实现了无缝集成，使得系统可以灵活扩展新的分析维度。

2. 财报估值模块实现细节

2.1 数据获取与处理

财报估值模块的核心功能是从公开数据源获取公司的财务和估值数据，并进行标准化处理。我们主要使用yfinance库来获取这些数据：

python复制import yfinance as yf

def get_fundamental_data(ticker, use_prepost=False):
    stock = yf.Ticker(ticker)
    data = {}
    
    # 获取财务数据
    try:
        financials = stock.financials
        data['financials_str'] = str(financials) if not financials.empty else "无"
    except:
        data['financials_str'] = "无"
    
    # 获取基本信息
    info = stock.info
    data.update({
        'company_name': info.get('shortName', ''),
        'industry': info.get('industry', ''),
        'sector': info.get('sector', ''),
        'market_cap': info.get('marketCap', 0),
        'pe_ratio': info.get('trailingPE', 0),
        'dividend_yield': info.get('dividendYield', 0),
        # 其他字段...
    })
    
    # 处理盘前盘后价格
    if use_prepost:
        data['price'] = info.get('postMarketPrice') or info.get('preMarketPrice') or info.get('regularMarketPrice', 0)
    else:
        data['price'] = info.get('regularMarketPrice', 0)
    
    return data

提示：在实际应用中，建议对yfinance的调用添加重试机制和异常处理，因为金融数据API有时会出现暂时性不可用的情况。

2.2 财报的AI解读功能

为了让财务数据更易理解，系统提供了财报AI解读功能。这个功能将原始财务数据发送给LLM，获取简洁的总结和分析：

python复制def get_financials_interpretation(ticker, financials_str, max_chars=1200):
    if not financials_str or financials_str == "无":
        return ""
    
    # 截断过长的财务数据以避免token超限
    truncated = financials_str[:max_chars]
    
    prompt = f"""
    请分析以下{ticker}的财务数据，用2-3句话概括收入与利润趋势、现金流情况，
    并指出1个主要风险或关注点。直接输出解读，不要标题。
    
    财务数据：
    {truncated}
    """
    
    try:
        response = llm.ask_llm(prompt)
        return response.strip()
    except Exception as e:
        print(f"财报解读失败: {e}")
        return ""

在实际使用中，我们发现这个功能有几点需要注意：

财务数据往往很长，需要合理截断以避免超出模型token限制
解读结果有时会过于笼统，可以通过在prompt中指定更具体的分析维度来改善
对于不同行业的公司，关注的重点财务指标应该有所区别

3. 期权多空分析模块

3.1 期权数据获取与处理

期权数据是反映市场情绪的重要指标。我们的系统通过分析看涨期权(Call)和看跌期权(Put)的交易量比例来判断市场多空倾向：

python复制def get_put_call_summary(ticker):
    stock = yf.Ticker(ticker)
    
    try:
        # 获取期权到期日
        options_dates = stock.options
        if not options_dates:
            return {'ok': False, 'description': '无期权数据'}
        
        # 获取最近到期日的期权链
        nearest_date = options_dates[0]
        option_chain = stock.option_chain(nearest_date)
        
        # 计算看涨和看跌期权总成交量
        call_vol = option_chain.calls['volume'].sum()
        put_vol = option_chain.puts['volume'].sum()
        
        # 计算多空比
        if call_vol == 0:
            ratio = 2.0  # 避免除零，设为极端值
        else:
            ratio = put_vol / call_vol
        
        # 判断多空倾向
        if ratio < 0.7:
            desc = '偏多（call活跃）'
        elif ratio > 1.3:
            desc = '偏空（put活跃）'
        else:
            desc = '中性'
        
        return {
            'ok': True,
            'ratio': ratio,
            'description': desc,
            'call_volume': call_vol,
            'put_volume': put_vol,
            'expiry_date': nearest_date
        }
    
    except Exception as e:
        return {'ok': False, 'description': f'获取期权数据出错: {str(e)}'}

3.2 多空信号的应用经验

在实际应用中，我们发现期权多空信号有以下几个特点值得注意：

时间敏感性：期权信号通常反映短期市场情绪，对中长期投资的参考价值有限
市场差异：美股期权市场流动性好，信号可靠；A股期权品种少，信号可能失真
极端值解读：当多空比达到极端值时，往往预示着市场可能出现反转
结合其他指标：单独使用期权信号容易误判，最好与技术面、基本面结合分析

我们通常建议用户这样使用期权信号：

对于短线交易，可以给予较高权重
对于中长期投资，仅作为辅助参考
当信号与基本面出现背离时，往往意味着交易机会

4. LLM综合评分系统实现

4.1 Prompt设计与构建

综合评分是系统的核心功能，它通过精心设计的prompt引导LLM给出结构化的分析结果。我们的prompt分为系统指令和用户输入两部分：

python复制def _build_prompt(technical, news, fundamental, options, is_intraday=False):
    # 系统指令
    system_prompt = """
    你是一位专业的股票分析师。请严格按以下要求分析给定的股票信息，
    并按照指定格式输出10项分析结果，每项单独一行，格式必须严格如下：
    """
    
    # 用户输入
    time_frame = "日内分时" if is_intraday else "日线"
    user_prompt = f"""
    分析时间框架：{time_frame}
    
    请输出以下10项分析结果，每项单独一行，格式严格如下：
    
    1. 核心结论：[一句话总结该标的当前是否值得关注及主要理由]
    2. 趋势结构：[一句话描述均线趋势/多头排列等]
    3. MACD状态：[一句话描述位置与金叉死叉]
    4. KDJ状态：[一句话描述超买超卖与钝化]
    5. 分析原因：[2-4句综合结论，可结合PE、期权、均线]
    6. 评分：[仅数字，10=最强 1=最弱]
    7. 评分理由：[一句话说明为何给该评分]
    8. 交易动作：[仅填其一「买入/观察/离场」]
    9. 加仓价格：[尽量根据技术面入场参考给具体数字，无法则填「—」]
    10. 减仓价格：[尽量根据离场参考给具体数字，无法则填「—」]
    
    【技术面】
    {technical}
    
    【消息面】
    {news}
    
    【财报/估值/期权】
    {fundamental}
    {options}
    """
    
    return {
        'system': system_prompt,
        'user': user_prompt.format(
            technical=technical,
            news=news,
            fundamental=fundamental,
            options=options
        )
    }

4.2 结果解析与标准化

LLM返回的结果需要被解析并标准化，以便后续处理和展示：

python复制def _parse_llm_output(raw_output):
    # 初始化默认值
    result = {
        'core_conclusion': '—',
        'trend_structure': '—',
        'macd_status': '—',
        'kdj_status': '—',
        'analysis_reason': '—',
        'score': 5,  # 默认中值
        'score_reason': '—',
        'action': '观察',
        'add_position_price': '—',
        'reduce_position_price': '—'
    }
    
    # 按行解析
    for line in raw_output.split('\n'):
        line = line.strip()
        if not line:
            continue
            
        # 解析核心结论
        if line.startswith('核心结论：'):
            result['core_conclusion'] = line[5:].strip()
        # 解析其他字段...
        elif line.startswith('评分：'):
            try:
                score = int(''.join(filter(str.isdigit, line[3:])))
                result['score'] = max(1, min(10, score))  # 限制在1-10范围
            except:
                pass
        elif line.startswith('交易动作：'):
            action = line[5:].strip()
            result['action'] = _normalize_action(action)
    
    return result

def _normalize_action(action):
    action = action.lower()
    if '买入' in action or '加仓' in action or '多头' in action:
        return '买入'
    elif '离场' in action or '减仓' in action or '空头' in action:
        return '离场'
    return '观察'

在实际应用中，我们发现LLM输出有时会出现格式不一致的情况，因此解析逻辑需要具备一定的容错能力。我们还添加了评分范围限制和交易动作标准化，确保系统输出的统一性。

5. 报告生成与可视化

5.1 报告总览生成

在所有股票分析完成后，系统会生成一个报告总览，帮助用户快速把握整体情况：

python复制def generate_report_summary(cards):
    # 准备输入文本
    input_text = "以下是本期报告各标的的核心结论、评分、交易动作：\n"
    for card in cards:
        input_text += f"{card.get('company_name','')}({card.get('ticker','')}) "
        input_text += f"评分:{card.get('score',5)} "
        input_text += f"动作:{card.get('action','观察')} "
        input_text += f"结论:{card.get('core_conclusion','')}\n"
    
    # 调用LLM生成总览
    prompt = f"""
    {input_text}
    
    请用3-5句话概括本期要点，并指出优先关注的1-3只标的及简要理由。
    直接输出总览正文，不要标题或列表编号。
    """
    
    try:
        summary = llm.ask_llm(prompt)
        return summary.strip()
    except:
        return ""

5.2 HTML报告生成技巧

系统的最终输出是一个交互式的HTML报告，包含以下关键特性：

筛选功能：用户可以按评分、交易动作、市场等条件筛选股票
排序功能：支持多种排序方式，方便找到最关注的标的
响应式设计：适配不同设备屏幕尺寸
可视化增强：使用颜色和图标突出关键信息

报告生成的核心代码如下：

python复制def build_report_html(cards, title, gen_time, report_summary=None):
    # HTML头部
    html = f"""
    <!DOCTYPE html>
    <html>
    <head>
        <title>{title}</title>
        <meta charset="UTF-8">
        <meta name="viewport" content="width=device-width, initial-scale=1.0">
        <style>
            /* CSS样式... */
        </style>
    </head>
    <body>
        <h1>{title}</h1>
        <p>生成时间: {gen_time}</p>
    """
    
    # 添加报告总览
    if report_summary:
        html += f"""
        <div class="summary">
            <h2>报告总览</h2>
            <p>{report_summary.replace('\n', '<br>')}</p>
        </div>
        """
    
    # 添加筛选控件
    html += """
    <div class="filters">
        <h2>筛选与排序</h2>
        <!-- 筛选表单... -->
    </div>
    """
    
    # 添加卡片内容
    html += '<div class="cards-container">'
    for card in cards:
        html += f"""
        <div class="card" data-score="{card.get('score',5)}" 
             data-action="{card.get('action','观察')}">
            <div class="card-header">
                <h3>{card.get('company_name','')} ({card.get('ticker','')})</h3>
                <div class="score-badge score-{card.get('score',5)}">
                    {card.get('score',5)} - {_score_interpretation(card.get('score',5))}
                </div>
            </div>
            <!-- 卡片其他内容... -->
        </div>
        """
    html += '</div>'
    
    # 添加JavaScript
    html += """
    <script>
        // 筛选和排序逻辑...
    </script>
    """
    
    html += "</body></html>"
    return html

在实际开发中，我们发现HTML报告有几点优化空间：

可以添加更多可视化图表，如评分分布直方图
可以支持用户自定义报告模板
可以添加导出功能，支持PDF、Excel等格式
对于大量股票的报告，需要优化性能以避免页面卡顿

6. 系统部署与性能优化

6.1 部署架构建议

对于生产环境部署，我们推荐以下架构：

前端：使用Vue.js或React构建交互式界面
后端API：Django REST framework提供数据接口
任务队列：Celery处理异步分析任务
缓存：Redis缓存常用数据和分析结果
数据库：PostgreSQL存储历史分析记录
LLM服务：通过API连接商业LLM或部署开源模型

这种架构具有良好的扩展性，可以支持多用户并发使用，并能处理大规模股票分析任务。

6.2 性能优化经验

在开发过程中，我们总结了以下性能优化经验：

数据缓存：财务数据等变化不频繁的信息应该缓存，避免重复获取
并行处理：不同股票的分析可以并行进行，充分利用多核CPU
请求合并：对同一数据源的多个请求尽量合并，减少API调用次数
LLM调用优化：合理设置超时，实现重试机制，批量处理小请求
数据库优化：对常用查询建立索引，定期清理历史数据

例如，我们可以这样优化数据获取过程：

python复制from functools import lru_cache
import threading

# 使用缓存减少重复API调用
@lru_cache(maxsize=1000)
def get_cached_yfinance(ticker):
    return yf.Ticker(ticker)

# 并行获取多只股票数据
def batch_get_stock_data(tickers):
    results = {}
    lock = threading.Lock()
    
    def worker(ticker):
        try:
            data = get_fundamental_data(ticker)
            with lock:
                results[ticker] = data
        except Exception as e:
            print(f"获取{ticker}数据失败: {e}")
    
    threads = []
    for ticker in tickers:
        t = threading.Thread(target=worker, args=(ticker,))
        threads.append(t)
        t.start()
    
    for t in threads:
        t.join()
    
    return results

7. 项目扩展与未来方向

基于现有系统，可以考虑以下几个扩展方向：

多时间框架分析：支持周线、月线等更长周期分析
组合分析：评估股票组合的整体风险和收益特征
实时监控：实现价格异动和新闻事件的实时提醒
回测功能：验证分析策略的历史表现
个性化模型：针对不同投资风格训练专门的评分模型
社交功能：允许用户分享和讨论分析结果

例如，实现组合分析功能可以这样设计：

python复制class PortfolioAnalyzer:
    def __init__(self, ticker_weights):
        self.ticker_weights = ticker_weights
        self.analysis_results = {}
    
    def analyze_portfolio(self):
        # 获取所有成分股数据
        all_data = batch_get_stock_data(self.ticker_weights.keys())
        
        # 计算组合指标
        total_weight = sum(self.ticker_weights.values())
        weighted_score = 0
        sector_exposure = {}
        
        for ticker, weight in self.ticker_weights.items():
            data = all_data.get(ticker, {})
            score = data.get('score', 5)
            weighted_score += score * (weight / total_weight)
            
            # 计算行业暴露
            sector = data.get('sector', '其他')
            sector_exposure[sector] = sector_exposure.get(sector, 0) + weight
        
        # 保存结果
        self.analysis_results = {
            'portfolio_score': round(weighted_score, 2),
            'sector_exposure': sector_exposure,
            'stock_details': all_data
        }
        
        return self.analysis_results
    
    def generate_portfolio_report(self):
        if not self.analysis_results:
            self.analyze_portfolio()
        
        # 生成组合报告HTML
        return build_portfolio_html(self.analysis_results)

这个股票分析系统将传统金融分析与现代AI技术相结合，为投资者提供了一个强大的决策支持工具。通过模块化设计和清晰的接口规范，系统具有良好的可维护性和扩展性。随着AI技术的不断发展，这类系统将会在投资领域发挥越来越重要的作用。