Python+Django构建图书推荐系统实战

RIDERPRINCE

1. 项目概述

作为一名经常泡图书馆的技术宅，我深知在茫茫书海中找到一本合心意的好书有多难。传统的图书馆检索系统只能按书名、作者等基本信息搜索，完全无法满足"这本书可能适合我"的个性化需求。于是我用Python+Django开发了一套图书推荐系统，把抖音式的推荐流体验搬到了图书领域。

这个系统最核心的价值在于它的多级推荐策略链：当用户行为数据充足时使用协同过滤算法，数据不足时自动降级到标签推荐，最后用热点图书托底。实测下来，用户平均停留时间提升了3倍，图书借阅率提高了47%。下面我就从技术实现角度，详细拆解这个让读者越刷越上头的推荐系统。

2. 技术架构设计

2.1 整体技术栈选型

选择Django作为后端框架主要基于以下考虑：

自带Admin后台，适合快速构建内容管理系统
ORM对MySQL支持完善，简化数据库操作
模板系统与前端组件天然集成
成熟的用户认证机制

前端采用Bootstrap+jQuery组合是因为：

图书推荐需要瀑布流展示，Bootstrap的响应式栅格系统完美适配
jQuery的AJAX支持实现无刷新加载
Layer弹窗组件提供良好的交互体验

数据库选用MySQL 8.0主要看中：

JSON字段支持，便于存储图书的扩展属性
窗口函数方便计算排名
成熟的索引优化机制

2.2 数据模型设计

核心模型关系如下图所示（用文字描述）：

User ↔ UserProfile：一对一扩展用户属性
UserProfile ↔ Tag：多对多记录用户兴趣
Book ↔ Tag：多对多图书分类
User ↔ Book：通过Rating/Collection/Comment建立关联

特别注意的几个设计细节：

用户最后登录时间字段(last_login)用于筛选活跃用户
评分表使用复合主键(user_id, book_id)防止重复评分
图书表存储豆瓣原始ID方便数据对照

python复制class Rating(models.Model):
    user = models.ForeignKey(User, on_delete=models.CASCADE)
    book = models.ForeignKey(Book, on_delete=models.CASCADE) 
    score = models.SmallIntegerField(choices=[(i, i) for i in range(1, 6)])
    created_at = models.DateTimeField(auto_now_add=True)
    
    class Meta:
        unique_together = [['user', 'book']]  # 防止重复评分

3. 推荐算法实现

3.1 混合推荐策略

系统采用三级降级推荐机制：

优先：协同过滤（用户CF+物品CF混合）
备选：基于兴趣标签的内容推荐
保底：全局热门图书推荐

算法选择逻辑：

python复制def get_recommendations(user):
    if not user.is_authenticated:
        return get_hot_books()  # 未登录返回热门
    
    if Rating.objects.filter(user=user).count() >= 20:
        # 行为数据充足时用协同过滤
        books = hybrid_cf_recommend(user)
        if books: return books
    
    if user.profile.tags.exists():
        # 降级到标签推荐
        books = tag_based_recommend(user)
        if books: return books
    
    return get_hot_books()  # 最终降级到热门

3.2 协同过滤实现

用户相似度计算采用改进的余弦相似度：

仅计算最近30天活跃用户
引入时间衰减因子：近期评分权重更高
相似用户数限制在Top 50避免过拟合

python复制def calculate_user_similarity(user1, user2):
    # 获取共同评分图书
    common_books = get_common_rated_books(user1, user2)
    
    # 计算时间衰减权重（最近30天内）
    time_weights = [
        1 - (timezone.now() - r.created_at).days / 30 
        for r in common_books
    ]
    
    # 带权重的余弦相似度
    dot_product = sum(r1.score * r2.score * w 
                     for (r1, r2), w in zip(common_books, time_weights))
    norm1 = sqrt(sum((r.score * w)**2 for r, w in zip(user1_ratings, time_weights)))
    norm2 = sqrt(sum((r.score * w)**2 for r, w in zip(user2_ratings, time_weights)))
    
    return dot_product / (norm1 * norm2 + 1e-8)  # 避免除零

3.3 冷启动解决方案

对于新用户或数据不足的情况，采用以下策略：

注册时强制选择3-5个兴趣标签
根据标签匹配相似图书
在推荐结果中混入20%的热门图书

标签推荐算法实现：

python复制def tag_based_recommend(user):
    user_tags = user.profile.tags.all()
    if not user_tags:
        return []
    
    # 获取标签对应图书（排除已读）
    viewed_books = set(Rating.objects.filter(user=user)
                      .values_list('book_id', flat=True))
    
    books = Book.objects.filter(tags__in=user_tags)\
                       .exclude(id__in=viewed_books)\
                       .annotate(tag_count=Count('tags'))\
                       .order_by('-tag_count', '-collect_count')[:100]
    
    return random.sample(list(books), min(10, len(books)))

4. 性能优化实践

4.1 数据库优化

关键索引配置：

sql复制-- 评分表复合索引
CREATE INDEX idx_rating_user_book ON book_rating(user_id, book_id);
CREATE INDEX idx_rating_score ON book_rating(score);

-- 收藏表索引
CREATE INDEX idx_collection_user_book ON book_collection(user_id, book_id);

-- 图书标签关联表索引
CREATE INDEX idx_booktag_book ON book_tags(book_id);
CREATE INDEX idx_booktag_tag ON book_tags(tag_id);

查询优化示例：

python复制# 优化前（N+1查询问题）
books = Book.objects.filter(tags__name='小说')
for book in books:
    print(book.collection_set.count())

# 优化后（使用annotate）
books = Book.objects.filter(tags__name='小说')\
                   .annotate(collect_count=Count('collection'))\
                   .select_related('publisher')\
                   .prefetch_related('authors')

4.2 推荐结果缓存

使用Redis缓存推荐结果：

键设计：rec:{user_id}:
过期时间：6小时
缓存穿透处理：对空结果也缓存

python复制def get_cached_recommendations(user):
    cache_key = f'rec:{user.id}:v2'
    result = cache.get(cache_key)
    
    if result is None:  # 包括空结果也缓存
        result = generate_recommendations(user)
        cache.set(cache_key, result or [], 6*3600)
    
    return result

5. 前端交互设计

5.1 无限滚动加载

实现要点：

监听滚动事件，距离底部100px时触发加载
显示加载动画提升体验
服务端分页（每页15条）

javascript复制let loading = false;
$(window).scroll(function() {
    if ($(window).scrollTop() + $(window).height() > $(document).height() - 100) {
        if (!loading) {
            loading = true;
            $('#loading-spinner').show();
            
            $.get(`/recommend/more?page=${nextPage}`, function(data) {
                $('#book-list').append(data);
                nextPage++;
                loading = false;
                $('#loading-spinner').hide();
            });
        }
    }
});

5.2 评分交互优化

采用星级评分组件，实现：

鼠标悬停预览
点击提交异步请求
即时显示平均分

html复制<div class="rating" data-book-id="{{ book.id }}">
    {% for i in "54321" %}
    <input type="radio" id="star{{ i }}" name="rating" value="{{ i }}"
           {% if user_rating == i %}checked{% endif %}>
    <label for="star{{ i }}"></label>
    {% endfor %}
    <span class="avg-score">{{ book.avg_score|floatformat:1 }}</span>
</div>

6. 数据采集与处理

6.1 豆瓣数据爬取

爬虫关键配置：

python复制class DoubanBookSpider(scrapy.Spider):
    name = 'douban_book'
    download_delay = 3  # 遵守robots.txt
    custom_settings = {
        'USER_AGENT_ROTATION': True,
        'RETRY_TIMES': 3,
        'CONCURRENT_REQUESTS': 1
    }

    def parse_book(self, response):
        item = {}
        item['title'] = response.css('h1 span::text').get()
        item['rating'] = response.css('.rating_num::text').get()
        item['tags'] = response.css('.tag a::text').getall()[:5]
        # ...其他字段解析
        yield item

6.2 数据清洗规则

处理原始数据时的特殊处理：

将"想读"人数按比例换算为虚拟收藏量
合并相似标签（如"机器学习"和"ML"）
提取出版社信息时过滤版本信息

python复制def clean_douban_data(raw):
    data = {}
    data['title'] = raw['title'].split('（')[0].strip()
    data['collect_count'] = int(raw['wish_count']) * 0.3  # 想读换算
    data['tags'] = [normalize_tag(t) for t in raw['tags']]
    # ...其他清洗逻辑
    return data

7. 部署与监控

7.1 生产环境部署

使用Docker-compose编排服务：

yaml复制version: '3'
services:
  web:
    build: .
    command: gunicorn bookrec.wsgi:application --bind 0.0.0.0:8000
    volumes:
      - .:/code
    ports:
      - "8000:8000"
    depends_on:
      - redis
      - db
  
  db:
    image: mysql:8.0
    environment:
      MYSQL_ROOT_PASSWORD: ${DB_PASSWORD}
      MYSQL_DATABASE: bookrec
    
  redis:
    image: redis:alpine

7.2 推荐质量监控

实现以下监控指标：

推荐点击率（CTR）
平均推荐位置（衡量排序质量）
冷启动转化率

python复制class RecommendationLog(models.Model):
    user = models.ForeignKey(User, on_delete=models.CASCADE)
    book = models.ForeignKey(Book, on_delete=models.CASCADE)
    rank = models.IntegerField()  # 推荐排名
    clicked = models.BooleanField(default=False)
    created_at = models.DateTimeField(auto_now_add=True)

    @classmethod
    def calculate_ctr(cls, days=7):
        viewed = cls.objects.filter(created_at__gte=timezone.now()-timedelta(days=days))
        return viewed.filter(clicked=True).count() / viewed.count()

8. 踩坑经验分享

相似度计算性能问题
- 初期全量计算用户相似度导致超时
- 优化：限制最近活跃用户 + 采样计算
新书冷启动问题
- 新上架图书缺乏行为数据
- 解决方案：混入10%的随机新书
前后端分离的CORS问题
- 开发阶段跨域请求失败
- 解决：安装django-cors-headers中间件
MySQL连接池耗尽
- 高并发时出现"Too many connections"
- 调整方案：
```
ini复制[mysqld]
max_connections = 200
wait_timeout = 300
```
推荐多样性不足
- 用户反馈推荐结果趋同
- 改进：在排序公式中加入多样性因子
```
python复制final_score = cf_score * 0.7 + tag_score * 0.2 + novelty * 0.1
```