基于Django和协同过滤的民宿推荐系统开发实践-AI智能范式网

基于Django和协同过滤的民宿推荐系统开发实践

yan-mika

1. 项目概述

这个基于Python和Django框架的民宿推荐系统，是我在完成计算机专业毕业设计时开发的一个实战项目。随着民宿市场的快速发展，用户面临信息过载的问题——如何在众多房源中找到真正适合自己的选择？这正是本系统要解决的核心痛点。

系统采用了协同过滤推荐算法（包括基于用户和基于物品两种方式），结合大数据分析技术，为用户提供个性化的民宿推荐服务。作为开发者，我在这个项目中不仅实现了基础的CRUD功能，更重要的是将机器学习算法与Web应用进行了有机结合，打造了一个真正实用的智能推荐平台。

2. 技术架构解析

2.1 整体技术栈

系统采用典型的三层架构设计：

前端展示层：HTML + CSS + JavaScript，使用Echarts实现数据可视化
业务逻辑层：Python + Django框架
数据存储层：MySQL关系型数据库

选择这套技术栈主要基于以下考虑：

Django提供了完善的MVT模式，开发效率高
Python在数据分析和机器学习领域有丰富生态
MySQL作为成熟的关系型数据库，能很好支持事务性操作
Echarts是百度开源的优秀可视化库，文档丰富

2.2 核心算法设计

系统的"大脑"是协同过滤推荐算法，我实现了两种变体：

基于用户的协同过滤(UserCF)
- 核心思想：找到相似用户，推荐他们喜欢的物品
- 相似度计算：采用皮尔逊相关系数
- 公式：r = Σ(xy)-(Σx)(Σy)/n / √[Σx²-(Σx)²/n][Σy²-(Σy)²/n]
基于物品的协同过滤(ItemCF)
- 核心思想：找到相似物品，推荐与用户喜欢物品相似的其他物品
- 相似度计算：采用余弦相似度
- 公式：similarity = N(i)∩N(j) / √(N(i)×N(j))

实际开发中发现，对于民宿场景，ItemCF的效果通常优于UserCF，因为民宿的稳定性高于用户兴趣的变化速度。

3. 数据库设计

3.1 主要数据表结构

python复制# 用户表
class User(models.Model):
    username = models.CharField(max_length=50)
    password = models.CharField(max_length=100)
    email = models.EmailField()
    create_time = models.DateTimeField(auto_now_add=True)

# 民宿表
class Homestay(models.Model):
    name = models.CharField(max_length=100)
    price = models.DecimalField(max_digits=10, decimal_places=2)
    location = models.CharField(max_length=100)
    room_type = models.CharField(max_length=50)
    capacity = models.IntegerField()
    facilities = models.TextField()
    description = models.TextField()
    publish_date = models.DateField()
    views = models.IntegerField(default=0)

# 评分表
class Rating(models.Model):
    user = models.ForeignKey(User, on_delete=models.CASCADE)
    homestay = models.ForeignKey(Homestay, on_delete=models.CASCADE)
    score = models.FloatField()
    create_time = models.DateTimeField(auto_now_add=True)

# 收藏表
class Collection(models.Model):
    user = models.ForeignKey(User, on_delete=models.CASCADE)
    homestay = models.ForeignKey(Homestay, on_delete=models.CASCADE)
    create_time = models.DateTimeField(auto_now_add=True)

3.2 关键索引优化

为提高查询性能，我为以下字段添加了索引：

用户表的username字段（唯一索引）
评分表的(user_id, homestay_id)组合索引
民宿表的location和price字段索引

4. 核心功能实现

4.1 推荐算法实现细节

python复制class UserCF:
    def __init__(self, all_user):
        self.all_user = all_user  # 格式：{username1: {item1:rating, ...}, ...}

    def pearson(self, user1, user2):
        """计算两个用户的皮尔逊相关系数"""
        common_items = set(user1.keys()) & set(user2.keys())
        n = len(common_items)
        if n == 0:
            return 0
            
        sum1 = sum(user1[item] for item in common_items)
        sum2 = sum(user2[item] for item in common_items)
        
        sum1Sq = sum(pow(user1[item], 2) for item in common_items)
        sum2Sq = sum(pow(user2[item], 2) for item in common_items)
        
        pSum = sum(user1[item] * user2[item] for item in common_items)
        
        num = pSum - (sum1 * sum2 / n)
        den = sqrt((sum1Sq - pow(sum1, 2) / n) * (sum2Sq - pow(sum2, 2) / n))
        if den == 0:
            return 0
            
        return num / den

    def recommend(self, username, n=3):
        """为用户生成推荐"""
        totals = {}
        simSums = {}
        
        for other in self.all_user:
            if other == username:
                continue
                
            sim = self.pearson(self.all_user[username], self.all_user[other])
            if sim <= 0:
                continue
                
            for item in self.all_user[other]:
                if item not in self.all_user[username]:
                    totals.setdefault(item, 0)
                    totals[item] += self.all_user[other][item] * sim
                    simSums.setdefault(item, 0)
                    simSums[item] += sim
                    
        rankings = [(total/simSums[item], item) for item,total in totals.items()]
        rankings.sort(reverse=True)
        return rankings[:n]

4.2 数据可视化实现

使用Echarts实现的关键可视化组件：

javascript复制// 租金区间分布图
function renderRentChart(data) {
    const chart = echarts.init(document.getElementById('rent-chart'));
    const option = {
        tooltip: {
            trigger: 'axis',
            axisPointer: {type: 'shadow'}
        },
        legend: {
            data: ['房源数量', '平均评分']
        },
        xAxis: {
            type: 'category',
            data: data.priceRanges
        },
        yAxis: [
            {
                type: 'value',
                name: '房源数量',
                min: 0
            },
            {
                type: 'value',
                name: '平均评分',
                min: 0,
                max: 5
            }
        ],
        series: [
            {
                name: '房源数量',
                type: 'bar',
                data: data.counts
            },
            {
                name: '平均评分',
                type: 'line',
                yAxisIndex: 1,
                data: data.avgScores
            }
        ]
    };
    chart.setOption(option);
}

// 词云图
function renderWordCloud(data) {
    const chart = echarts.init(document.getElementById('wordcloud'));
    const option = {
        series: [{
            type: 'wordCloud',
            shape: 'circle',
            left: 'center',
            top: 'center',
            width: '90%',
            height: '90%',
            right: null,
            bottom: null,
            sizeRange: [12, 60],
            rotationRange: [-90, 90],
            rotationStep: 45,
            gridSize: 8,
            drawOutOfBound: false,
            textStyle: {
                fontFamily: 'sans-serif',
                fontWeight: 'bold',
                color: function () {
                    return 'rgb(' + [
                        Math.round(Math.random() * 160),
                        Math.round(Math.random() * 160),
                        Math.round(Math.random() * 160)
                    ].join(',') + ')';
                }
            },
            emphasis: {
                focus: 'self',
                textStyle: {
                    shadowBlur: 10,
                    shadowColor: '#333'
                }
            },
            data: data
        }]
    };
    chart.setOption(option);
}

5. 系统部署与优化

5.1 部署方案

项目采用Nginx + Gunicorn + Django的经典部署架构：

Nginx：作为反向代理和静态文件服务器
Gunicorn：作为WSGI应用服务器
MySQL：单独部署在专用服务器上

部署步骤示例：

bash复制# 安装依赖
pip install -r requirements.txt

# 数据库迁移
python manage.py makemigrations
python manage.py migrate

# 收集静态文件
python manage.py collectstatic

# 启动Gunicorn
gunicorn --workers 4 --bind 0.0.0.0:8000 recommend.wsgi:application

# Nginx配置示例
server {
    listen 80;
    server_name yourdomain.com;
    
    location /static/ {
        alias /path/to/static/files;
    }
    
    location / {
        proxy_pass http://127.0.0.1:8000;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

5.2 性能优化技巧

数据库查询优化：
- 使用select_related和prefetch_related减少查询次数
- 对高频查询添加适当索引
- 使用django-debug-toolbar分析查询性能
缓存策略：
- 使用Redis缓存热门推荐结果
- 对可视化数据设置适当缓存时间
- 实现片段缓存减少重复计算
算法优化：
- 对协同过滤算法进行稀疏矩阵优化
- 实现增量更新机制，避免全量计算
- 对相似度计算进行并行化处理

6. 项目总结与心得

这个项目从需求分析到最终部署，历时约3个月，期间遇到了不少挑战也积累了很多宝贵经验：

算法与工程的结合：
理论上的推荐算法和实际工程应用有很大差距。最初实现的算法在小数据集上表现良好，但在真实数据场景下效率低下。通过引入稀疏矩阵计算和缓存机制，最终将推荐响应时间从3秒降低到300毫秒以内。
数据质量的重要性：
推荐系统的效果高度依赖数据质量。在项目中期，我们发现用户评分数据存在严重的长尾分布问题（大多数用户只评了1-2个民宿）。通过引入隐式反馈（如浏览时长、收藏行为）作为补充，显著提升了推荐质量。
可视化设计的思考：
数据可视化不是简单的图表堆砌。经过多次迭代，我们最终确定了"少即是多"的原则，每个可视化组件都聚焦解决一个具体的用户决策问题。例如租金分布图帮助用户了解市场价格区间，词云图快速展示民宿特征标签。
工程实践收获：
- Django的中间件机制非常适合实现统一的用户行为日志
- Echarts的配置项需要仔细调优才能达到最佳视觉效果
- 生产环境下必须考虑并发性能和缓存策略

这个项目让我深刻体会到，一个好的推荐系统不仅需要扎实的算法基础，更需要从用户角度出发，解决真实场景中的实际问题。未来如果继续迭代，我会考虑引入更多元的数据源（如用户社交关系、实时行为数据）和更先进的深度学习模型，进一步提升推荐的相关性和惊喜度。