Django美食推荐系统：协同过滤算法与可视化实践

成为夏目

1. 项目概述

这个基于Django框架的美食推荐与可视化平台，本质上是一个融合了协同过滤算法和大数据分析技术的智能推荐系统。作为一名做过多个推荐系统项目的开发者，我发现美食领域特别适合作为毕业设计选题——它既有足够的数据维度供算法发挥，又能通过可视化让非技术用户直观感受到推荐系统的价值。

这个项目的核心在于三个技术点的有机结合：Django框架提供的Web开发基础、协同过滤算法实现的个性化推荐、以及可视化技术带来的数据呈现。不同于简单的菜品展示网站，它能根据用户历史行为数据（如评分、浏览记录等）自动挖掘潜在饮食偏好，实现"千人千面"的美食推荐。

提示：选择美食领域的一个优势是数据获取相对容易，既可以通过公开数据集（如Yelp的餐厅数据），也能自己构建小型数据集进行原型验证。

2. 技术架构解析

2.1 Django框架选型考量

Django作为Python生态中最成熟的Web框架之一，其"开箱即用"的特性特别适合毕业设计类项目。我在实际开发中发现几个显著优势：

ORM系统：通过models.py定义数据模型后，几乎不需要手写SQL语句。例如定义菜品模型：

python复制class Dish(models.Model):
    name = models.CharField(max_length=100)
    cuisine_type = models.CharField(max_length=50) 
    ingredients = models.TextField()
    average_rating = models.FloatField(default=0)

内置Admin后台：开发阶段可以直接使用/admin界面管理数据，省去前端开发时间。只需几行代码就能启用：

python复制from django.contrib import admin
admin.site.register(Dish)

模板引擎：用Django Template Language (DTL)可以轻松实现前后端数据交互。比如在模板中展示推荐结果：

html复制{% for dish in recommended_dishes %}
<div class="dish-card">
    <h3>{{ dish.name }}</h3>
    <p>推荐指数: {{ dish.predicted_rating|floatformat:1 }}</p>
</div>
{% endfor %}

2.2 协同过滤算法实现

协同过滤(Collaborative Filtering)是推荐系统的经典算法，主要分为两类：

基于用户的协同过滤(User-based CF)：
- 核心思想：找到与目标用户相似的其他用户，推荐这些相似用户喜欢的菜品
- 相似度计算常用余弦相似度：
```
python复制from sklearn.metrics.pairwise import cosine_similarity
user_similarity = cosine_similarity(user_rating_matrix)
```
基于物品的协同过滤(Item-based CF)：
- 核心思想：计算菜品之间的相似度，推荐与用户历史喜欢菜品相似的菜品
- 更适合美食推荐场景（用户数通常远大于菜品数）

我在项目中实际采用的是改进版的SVD（奇异值分解）算法，通过surprise库实现：

python复制from surprise import SVD, Dataset, accuracy
from surprise.model_selection import train_test_split

data = Dataset.load_builtin('ml-100k')
trainset, testset = train_test_split(data, test_size=0.25)
algo = SVD(n_factors=100, n_epochs=20, lr_all=0.005, reg_all=0.02)
algo.fit(trainset)
predictions = algo.test(testset)
accuracy.rmse(predictions)

注意：实际部署时要考虑冷启动问题。我的解决方案是对新用户先采用基于内容的推荐（如根据用户注册时选择的饮食偏好），积累一定数据后再切换到协同过滤。

3. 可视化方案设计

3.1 数据看板实现

使用ECharts.js实现动态可视化是项目的亮点之一。主要包含以下几个视图：

用户偏好雷达图：展示用户对不同菜系的评分分布

javascript复制option = {
    radar: {
        indicator: [
            { name: '川菜', max: 5 },
            { name: '粤菜', max: 5 },
            { name: '西餐', max: 5 }
        ]
    },
    series: [{
        type: 'radar',
        data: [{
            value: [4.2, 3.5, 2.8],
            name: '用户A'
        }]
    }]
};

推荐理由桑基图：展示推荐路径（用户→相似用户→菜品）

javascript复制option = {
    series: [{
        type: 'sankey',
        data: [
            {name: '用户A'}, 
            {name: '用户B(相似度87%)'},
            {name: '水煮鱼'}
        ],
        links: [
            {source: '用户A', target: '用户B(相似度87%)', value: 0.87},
            {source: '用户B(相似度87%)', target: '水煮鱼', value: 4.8}
        ]
    }]
};

3.2 热力图展示

使用Heatmap.js实现用户-菜品评分矩阵的可视化，可以直观发现数据稀疏性问题：

python复制import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12,8))
sns.heatmap(rating_matrix, cmap="YlGnBu")
plt.title("User-Dish Rating Matrix")
plt.xlabel("Dishes")
plt.ylabel("Users")
plt.show()

4. 关键实现步骤

4.1 数据准备与清洗

美食推荐系统的数据质量直接影响推荐效果。我通常从以下渠道获取数据：

公开数据集：
- Yelp Dataset（包含商家和用户评价）
- Recipe1M（菜谱数据集）
- 美团/大众点评爬取数据（需注意合法性）
数据清洗要点：
- 处理评分极端值（如大量5分或1分）
- 合并相似菜品（如"宫保鸡丁"和"宫爆鸡丁"）
- 构建用户-菜品评分矩阵时，对缺失值采用用户平均分填充

python复制# 评分矩阵填充示例
user_mean = ratings.groupby('user_id')['rating'].mean()
dish_mean = ratings.groupby('dish_id')['rating'].mean()
rating_matrix = ratings.pivot(index='user_id', columns='dish_id', values='rating')
rating_matrix = rating_matrix.fillna(rating_matrix.mean(axis=0))  # 用菜品平均分填充

4.2 推荐引擎实现

完整的推荐流程包括：

离线训练：
- 每日定时用最新数据训练模型
- 保存模型参数到数据库
```
python复制import joblib
joblib.dump(algo, 'recommend_model.pkl')
```

在线推荐：

用户访问时实时生成推荐
使用缓存提高响应速度

python复制from django.core.cache import cache

def get_recommendations(user_id):
    cache_key = f"recs_{user_id}"
    if cache.get(cache_key):
        return cache.get(cache_key)
    
    model = joblib.load('recommend_model.pkl')
    dishes = Dish.objects.all()
    predictions = [model.predict(user_id, dish.id) for dish in dishes]
    recommendations = sorted(predictions, key=lambda x: x.est, reverse=True)[:10]
    cache.set(cache_key, recommendations, timeout=3600)
    return recommendations

4.3 性能优化技巧

在实际部署中发现几个性能瓶颈及解决方案：

相似度计算加速：
- 使用近似最近邻(ANN)算法如Faiss
- 对用户/菜品进行聚类预处理
缓存策略：
- 用户近期推荐结果缓存1小时
- 热门菜品列表缓存24小时
数据库优化：
- 为评分表添加复合索引(user_id, dish_id)
- 使用select_related减少查询次数
```
python复制Dish.objects.select_related('restaurant').filter(...)
```

5. 常见问题与解决方案

5.1 冷启动问题

现象：新用户或新菜品缺乏历史数据，难以产生推荐

解决方案：

新用户：
- 注册时收集饮食偏好（如忌口、喜欢的菜系）
- 初期展示热门菜品或随机推荐
新菜品：
- 基于内容相似度推荐（使用菜品标签）
- 人工设置相似菜品关系

python复制def content_based_recommend(dish_id, top_n=5):
    target = Dish.objects.get(id=dish_id)
    dishes = Dish.objects.exclude(id=dish_id)
    similarities = []
    for dish in dishes:
        sim = calculate_similarity(target.tags, dish.tags)
        similarities.append((dish.id, sim))
    return sorted(similarities, key=lambda x: x[1], reverse=True)[:top_n]

5.2 数据稀疏性问题

现象：用户只评价了少量菜品，导致评分矩阵非常稀疏

解决方案：

矩阵填充技术：
- 使用SVD等矩阵分解方法
- 基于均值或中位数填充
混合推荐策略：
- 协同过滤 + 基于内容推荐
- 设置权重动态调整

python复制def hybrid_recommend(user_id, alpha=0.7):
    cf_recs = collaborative_filtering(user_id)  # 协同过滤结果
    cb_recs = content_based(user_id)  # 基于内容结果
    
    # 加权融合
    recommendations = []
    for dish_id in set(cf_recs.keys()).union(cb_recs.keys()):
        score = alpha*cf_recs.get(dish_id,0) + (1-alpha)*cb_recs.get(dish_id,0)
        recommendations.append((dish_id, score))
    
    return sorted(recommendations, key=lambda x: x[1], reverse=True)

5.3 实时性挑战

现象：用户最新行为无法立即影响推荐结果

解决方案：

短期兴趣记录：
- 维护用户最近浏览/点击记录
- 在推荐结果中提升相关菜品权重
在线学习：
- 使用增量更新算法
- 部分模型参数实时调整

python复制from surprise import BaselineOnly

algo = BaselineOnly()
algo.fit(trainset)  # 初始训练

# 当有新评分时
new_rating = (user_id, dish_id, rating)
algo.train_update([new_rating])  # 增量更新

6. 项目扩展方向

在实际开发过程中，我发现这个基础框架可以进一步扩展：

多模态推荐：
- 结合菜品图片进行视觉特征提取
- 使用CNN模型分析食物图像风格
情境感知推荐：
- 考虑时间因素（早餐/午餐/晚餐）
- 结合天气数据推荐适宜菜品
社交化推荐：
- 导入好友关系数据
- 实现"好友喜欢"的推荐维度

python复制def social_recommend(user_id):
    friends = get_friends(user_id)
    friend_ratings = Rating.objects.filter(user__in=friends)
    popular_dishes = friend_ratings.values('dish').annotate(
        avg_rating=Avg('rating'),
        rating_count=Count('dish')
    ).order_by('-avg_rating')[:10]
    return [item['dish'] for item in popular_dishes]