Django景点美食推荐系统：协同过滤与数据可视化实战

倔强的猫

1. 项目概述

这个基于Django框架的景点美食可视化分析系统，是我在旅游行业数字化转型背景下开发的一个实战项目。系统通过爬虫技术采集景点和美食数据，利用协同过滤算法实现个性化推荐，并结合数据可视化技术直观展示分析结果。作为一名长期从事旅游信息化开发的工程师，我发现市场上缺乏能够同时满足游客个性化需求和商家经营决策支持的系统，这正是本项目的核心价值所在。

系统采用Python 3.9+Django 4.2.19技术栈，搭配MySQL 8.0.41数据库，前端使用Bootstrap框架。从技术选型来看，这套组合既保证了开发效率，又能满足旅游行业数据处理和实时推荐的需求。特别值得一提的是，我们针对旅游数据的特性对协同过滤算法进行了优化，使其在景点和美食推荐场景下表现更加出色。

2. 技术架构解析

2.1 后端技术选型

Django框架作为系统的核心，我们主要利用了其以下特性：

ORM层：通过models.py定义数据模型，简化了与MySQL的交互
模板引擎：用于渲染前端页面，特别是数据可视化部分
REST框架：构建API接口供前端调用
内置Admin：快速搭建后台管理系统

选择Django而非Flask的主要考虑是：

Django自带完善的用户认证系统，省去了从零开发用户模块的工作量
ORM对复杂查询的支持更好，适合处理景点-美食-用户之间的多对多关系
内置的Admin界面可以快速验证数据模型

数据库设计上，我们采用了MySQL 8.0而非MongoDB，主要因为：

旅游数据具有强结构化特征（景点信息、用户评价等）
需要支持复杂的事务处理（如用户收藏、订单等）
MySQL 8.0对JSON字段的良好支持，可以兼顾结构化与非结构化数据存储

2.2 数据处理流程

系统的数据处理分为四个关键阶段：

数据采集：

使用Scrapy框架爬取主流旅游网站（如TripAdvisor、大众点评）
针对不同网站编写特定的解析规则（XPath/CSS选择器）
反爬策略：动态User-Agent、IP代理池、请求频率控制

数据清洗：

python复制def clean_attraction_data(raw_data):
    # 处理缺失值
    raw_data.fillna({
        'rating': raw_data['rating'].mean(),
        'price': raw_data['price'].median()
    }, inplace=True)
    
    # 标准化地址信息
    raw_data['address'] = raw_data['address'].apply(
        lambda x: re.sub(r'\s+', ' ', x).strip()
    )
    
    # 转换价格单位
    raw_data['price'] = raw_data['price'].apply(
        lambda x: float(x.replace('¥', '')) if isinstance(x, str) else x
    )
    
    return raw_data

数据分析：

使用pandas进行数据聚合和统计
应用jieba分词处理用户评论
基于TF-IDF提取景点和美食的关键特征

数据存储：

结构化数据（用户信息、订单）存储在MySQL
非结构化数据（评论、图片）使用Django的FileField存储
推荐结果缓存到Redis提高响应速度

3. 协同过滤算法实现

3.1 算法选型与优化

系统采用基于用户的协同过滤（UserCF）算法，针对旅游场景做了以下优化：

相似度计算改进：
传统余弦相似度在旅游场景的不足：

用户评分数据稀疏
景点之间的语义关联未被考虑

我们的解决方案：

python复制def hybrid_similarity(user1, user2):
    # 基础评分相似度（加权余弦）
    rating_sim = cosine_similarity(
        user1['ratings'], 
        user2['ratings'],
        weights=[1.2, 1.0, 0.8]  # 近期评分权重更高
    )
    
    # 行为相似度（浏览、收藏等）
    behavior_sim = jaccard_similarity(
        user1['behaviors'], 
        user2['behaviors']
    )
    
    # 混合相似度
    return 0.6 * rating_sim + 0.4 * behavior_sim

冷启动问题处理：

新用户：基于地理位置和热门推荐
新景点：基于内容相似度推荐

实时性优化：

离线计算用户相似度矩阵（每日更新）
在线阶段只进行近邻查找和推荐生成

3.2 推荐系统架构

系统采用经典的Lambda架构：

code复制离线层（Hadoop/Spark）：
  - 用户行为日志收集
  - 特征工程
  - 模型训练

在线层（Django+Redis）：
  - 实时用户行为记录
  - 近邻查找
  - 推荐结果生成

服务层：
  - REST API暴露推荐接口
  - 推荐结果缓存
  - AB测试分流

关键数据库表设计：

sql复制CREATE TABLE `user_attraction_interaction` (
  `id` bigint NOT NULL AUTO_INCREMENT,
  `user_id` bigint NOT NULL,
  `attraction_id` bigint NOT NULL,
  `interaction_type` enum('view','collect','rate','share') NOT NULL,
  `rating` tinyint DEFAULT NULL,
  `created_at` datetime NOT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_user_attraction` (`user_id`,`attraction_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

4. 数据可视化实现

4.1 可视化技术选型

前端可视化采用ECharts + Mapbox GL的组合：

热力图展示：

javascript复制// 景点热度热力图
function initHeatmap() {
  const chart = echarts.init(document.getElementById('heatmap'));
  const option = {
    tooltip: {},
    visualMap: {
      min: 0,
      max: 100,
      inRange: {
        color: ['#313695', '#4575b4', '#74add1', '#abd9e9', '#e0f3f8', '#ffffbf', '#fee090', '#fdae61', '#f46d43', '#d73027', '#a50026']
      }
    },
    series: [{
      type: 'heatmap',
      coordinateSystem: 'geo',
      data: heatData,
      pointSize: 10,
      blurSize: 15
    }]
  };
  chart.setOption(option);
}

地图集成：

使用Mapbox GL JS展示景点地理分布
通过GeoJSON格式存储景点坐标数据
实现地图标记点聚类展示

4.2 典型可视化场景

景点热度趋势分析：

折线图展示不同时段访问量
热力图显示区域热度分布
词云展示热门标签

用户偏好分析：

雷达图展示用户兴趣维度
桑基图显示用户行为路径
散点图呈现用户群体分群

商家后台看板：

仪表盘显示关键指标
漏斗图分析转化路径
对比图表展示竞品分析

5. 系统部署与性能优化

5.1 生产环境部署

我们采用Docker Compose部署方案：

yaml复制version: '3'

services:
  web:
    build: .
    command: gunicorn config.wsgi:application --bind 0.0.0.0:8000
    volumes:
      - .:/code
    ports:
      - "8000:8000"
    depends_on:
      - redis
      - db
  
  db:
    image: mysql:8.0
    environment:
      MYSQL_DATABASE: tourism
      MYSQL_USER: django
      MYSQL_PASSWORD: secret
      MYSQL_ROOT_PASSWORD: secret
    volumes:
      - db_data:/var/lib/mysql
    ports:
      - "3306:3306"
  
  redis:
    image: redis:alpine
    ports:
      - "6379:6379"

volumes:
  db_data:

关键配置要点：

使用Gunicorn替代开发服务器
Nginx作为反向代理和静态文件服务器
MySQL和Redis使用独立容器
日志卷持久化存储

5.2 性能优化实践

数据库优化：

为常用查询添加复合索引
使用select_related和prefetch_related减少查询次数
对大表进行分区（按时间或地区）

缓存策略：

使用Redis缓存推荐结果
实现视图级缓存（@cache_page）
模板片段缓存

异步任务：

耗时操作（如数据清洗、模型训练）交给Celery
使用Django Channels实现实时通知

python复制# 异步任务示例
@app.task(bind=True)
def train_recommendation_model(self, user_ids):
    try:
        # 获取用户行为数据
        interactions = UserAttractionInteraction.objects.filter(
            user_id__in=user_ids
        ).select_related('attraction')
        
        # 数据预处理
        df = pd.DataFrame.from_records(
            interactions.values(),
            columns=['user_id', 'attraction_id', 'interaction_type', 'rating']
        )
        
        # 模型训练（伪代码）
        model = train_collaborative_filtering(df)
        
        # 保存模型
        save_model_to_s3(model)
        
        return {'status': 'success', 'users_processed': len(user_ids)}
    except Exception as e:
        self.retry(exc=e, countdown=60)

6. 典型问题与解决方案

6.1 数据质量问题

问题表现：

不同来源的数据格式不一致
用户评价存在大量非结构化文本
地理位置信息不精确

解决方案：

建立统一的数据清洗流水线
使用正则表达式和NLP技术处理文本
通过地理编码API标准化地址

python复制def standardize_address(raw_address):
    # 使用高德地图API进行地理编码
    params = {
        'key': AMAP_KEY,
        'address': raw_address,
        'city': '北京'  # 根据上下文确定城市
    }
    response = requests.get('https://restapi.amap.com/v3/geocode/geo', params=params)
    if response.status_code == 200:
        result = response.json()
        if result['status'] == '1' and result['geocodes']:
            return result['geocodes'][0]['formatted_address']
    return raw_address  # 失败时返回原地址

6.2 推荐多样性问题

问题表现：

热门景点过度推荐
长尾景点曝光不足
用户兴趣固化

解决方案：

在推荐结果中混入探索性内容
采用多目标优化（点击率+多样性）
实现基于语义的多样性增强

python复制def diversify_recommendations(base_recs, n=10):
    """
    增加推荐结果的多样性
    :param base_recs: 基础推荐列表 [(attraction_id, score)]
    :param n: 最终推荐数量
    :return: 多样化后的推荐列表
    """
    # 按类别分组
    recs_by_category = defaultdict(list)
    for aid, score in base_recs:
        category = Attraction.objects.get(pk=aid).category
        recs_by_category[category].append((aid, score))
    
    # 从每个类别中选取部分
    diversified = []
    categories = list(recs_by_category.keys())
    for i in range(n):
        if not categories:
            break
        category = categories[i % len(categories)]
        if recs_by_category[category]:
            diversified.append(recs_by_category[category].pop(0))
    
    return diversified

6.3 系统扩展性问题

问题表现：

用户增长导致推荐延迟
数据量增加使批处理变慢
新功能开发困难

解决方案：

采用微服务架构拆分推荐模块
使用Kafka处理用户行为流
实现特征存储统一管理

code复制推荐系统微服务架构：

用户行为服务 → Kafka → 实时处理服务
                          ↓
特征存储 ← 批处理服务 ← 数据湖
                          ↑
元数据服务 → 推荐服务 → 缓存

7. 项目演进方向

在实际运营过程中，我们发现系统还可以在以下方面进行增强：

多模态推荐：

结合图片内容分析（使用CNN提取特征）
音频评价情感分析
视频内容理解

上下文感知推荐：

python复制def context_aware_recommend(user, context):
    """
    考虑上下文因素的推荐
    :param user: 用户对象
    :param context: 包含时间、位置、天气等
    :return: 个性化推荐
    """
    # 基础协同过滤推荐
    base_recs = get_cf_recommendations(user)
    
    # 上下文过滤
    if context['weather'] == 'rain':
        base_recs = [r for r in base_recs 
                    if r.attraction.indoor]
    
    if context['time'] == 'night':
        base_recs = [r for r in base_recs
                    if r.attraction.night_opening]
    
    return sorted(base_recs, key=lambda x: x.score, reverse=True)