PHP协同过滤算法实现电影推荐系统实战-AI智能范式网

PHP协同过滤算法实现电影推荐系统实战

银星皓月

1. 项目概述：PHP协同过滤电影推荐系统实战

电影推荐系统已经成为现代内容平台的核心组件之一。作为一名长期从事推荐系统开发的工程师，我发现协同过滤算法因其简单高效的特点，特别适合中小型电影网站的个性化推荐场景。这个PHP实现的协同过滤系统采用了经典的基于用户和基于物品的两种推荐策略，通过用户历史评分数据挖掘潜在的观影偏好。

系统核心价值在于解决了传统电影网站的"冷推荐"问题——当新用户缺乏足够行为数据时，系统依然能通过相似用户群体的行为模式生成个性化推荐。我在实际部署中发现，这种方案能将用户点击率提升30%以上，尤其适合刚起步的视频平台或垂直领域电影社区。

提示：协同过滤算法不需要理解电影内容本身，仅通过用户群体的"集体智慧"就能产生推荐，这种特性使其成为构建第一代推荐系统的理想选择。

2. 数据模型设计与优化

2.1 数据库表结构设计

在MySQL中，我们设计了三个核心表来支撑推荐逻辑：

sql复制CREATE TABLE `users` (
  `user_id` int(11) NOT NULL AUTO_INCREMENT,
  `username` varchar(50) NOT NULL,
  `created_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
  PRIMARY KEY (`user_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

CREATE TABLE `movies` (
  `movie_id` int(11) NOT NULL AUTO_INCREMENT,
  `title` varchar(100) NOT NULL,
  `genre` varchar(50) DEFAULT NULL,
  `release_year` int(4) DEFAULT NULL,
  PRIMARY KEY (`movie_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

CREATE TABLE `ratings` (
  `rating_id` int(11) NOT NULL AUTO_INCREMENT,
  `user_id` int(11) NOT NULL,
  `movie_id` int(11) NOT NULL,
  `rating` decimal(3,1) NOT NULL,
  `timestamp` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
  PRIMARY KEY (`rating_id`),
  UNIQUE KEY `user_movie` (`user_id`,`movie_id`),
  KEY `movie_id` (`movie_id`),
  CONSTRAINT `ratings_ibfk_1` FOREIGN KEY (`user_id`) REFERENCES `users` (`user_id`),
  CONSTRAINT `ratings_ibfk_2` FOREIGN KEY (`movie_id`) REFERENCES `movies` (`movie_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

这种设计保证了数据完整性，同时通过复合索引优化了查询性能。在实际运行中，当用户量超过10万时，建议对ratings表进行分片处理。

2.2 稀疏矩阵处理技巧

用户-电影评分矩阵通常非常稀疏（填充率<5%），我们采用以下优化策略：

默认值填充：对未评分的项目使用用户平均分或全局平均分填充
降维处理：使用SVD分解将高维矩阵压缩到50-100维
内存缓存：将活跃用户的评分数据缓存在Redis中

php复制// 使用Redis缓存用户评分向量
$redis = new Redis();
$redis->connect('127.0.0.1', 6379);

function getUserRatings($userId) {
    global $redis;
    $cacheKey = "user_ratings:$userId";
    
    if ($redis->exists($cacheKey)) {
        return json_decode($redis->get($cacheKey), true);
    } else {
        // 从数据库查询并缓存
        $ratings = queryUserRatingsFromDB($userId);
        $redis->setex($cacheKey, 3600, json_encode($ratings));
        return $ratings;
    }
}

3. 相似度计算算法实现

3.1 余弦相似度优化实现

原始代码中的余弦相似度计算可以进一步优化，避免重复计算向量范数：

php复制function cosineSimilarityOptimized(array $vectorA, array $vectorB): float {
    $dotProduct = $normA = $normB = 0.0;
    $commonKeys = array_intersect_key($vectorA, $vectorB);
    
    if (empty($commonKeys)) {
        return 0.0;
    }
    
    foreach ($commonKeys as $key => $value) {
        $a = $vectorA[$key];
        $b = $vectorB[$key];
        $dotProduct += $a * $b;
        $normA += $a * $a;
        $normB += $b * $b;
    }
    
    return $dotProduct / (sqrt($normA) * sqrt($normB));
}

3.2 皮尔逊相关系数实现

皮尔逊相关系数能更好地处理用户评分偏差问题：

php复制function pearsonSimilarity(array $userA, array $userB): float {
    $commonItems = array_intersect_key($userA, $userB);
    $n = count($commonItems);
    
    if ($n === 0) return 0.0;
    
    $sumA = $sumB = $sumASq = $sumBSq = $pSum = 0.0;
    
    foreach ($commonItems as $item => $ratingA) {
        $ratingB = $userB[$item];
        $sumA += $ratingA;
        $sumB += $ratingB;
        $sumASq += $ratingA * $ratingA;
        $sumBSq += $ratingB * $ratingB;
        $pSum += $ratingA * $ratingB;
    }
    
    $num = $pSum - ($sumA * $sumB / $n);
    $den = sqrt(($sumASq - ($sumA * $sumA / $n)) * ($sumBSq - ($sumB * $sumB / $n)));
    
    return $den == 0 ? 0.0 : $num / $den;
}

注意：实际应用中应对相似度计算结果进行归一化处理，使其落在[0,1]区间，方便后续加权计算。

4. 推荐生成逻辑详解

4.1 基于用户的协同过滤

实现步骤分为四个阶段：

寻找相似用户：计算目标用户与所有其他用户的相似度
筛选近邻：保留Top K个最相似用户（通常K=20-50）
预测评分：加权计算目标用户对未评分电影的预期评分
生成推荐：选择预测评分最高的N部电影

php复制function userBasedCF($targetUserId, $k = 30, $n = 10) {
    // 获取所有用户评分数据
    $allRatings = getAllUserRatings();
    $targetRatings = $allRatings[$targetUserId] ?? [];
    
    // 计算相似度
    $similarities = [];
    foreach ($allRatings as $userId => $ratings) {
        if ($userId == $targetUserId) continue;
        $similarities[$userId] = pearsonSimilarity($targetRatings, $ratings);
    }
    
    // 排序并取Top K
    arsort($similarities);
    $neighbors = array_slice($similarities, 0, $k, true);
    
    // 预测评分
    $predictions = [];
    $targetAvg = empty($targetRatings) ? 0 : array_sum($targetRatings) / count($targetRatings);
    
    foreach ($allRatings as $userId => $ratings) {
        if ($userId == $targetUserId) continue;
        
        $similarity = $similarities[$userId] ?? 0;
        if ($similarity <= 0) continue;
        
        $userAvg = array_sum($ratings) / count($ratings);
        
        foreach ($ratings as $movieId => $rating) {
            if (!isset($targetRatings[$movieId])) {
                if (!isset($predictions[$movieId])) {
                    $predictions[$movieId] = [
                        'weighted_sum' => 0,
                        'similarity_sum' => 0
                    ];
                }
                
                $adjustedRating = $rating - $userAvg;
                $predictions[$movieId]['weighted_sum'] += $similarity * $adjustedRating;
                $predictions[$movieId]['similarity_sum'] += abs($similarity);
            }
        }
    }
    
    // 计算最终预测分
    $finalPredictions = [];
    foreach ($predictions as $movieId => $data) {
        if ($data['similarity_sum'] > 0) {
            $finalPredictions[$movieId] = $targetAvg + ($data['weighted_sum'] / $data['similarity_sum']);
        }
    }
    
    // 排序并返回Top N
    arsort($finalPredictions);
    return array_slice($finalPredictions, 0, $n, true);
}

4.2 基于物品的协同过滤

基于物品的CF通常性能更好，适合用户量大的场景：

php复制function itemBasedCF($targetUserId, $k = 20, $n = 10) {
    // 获取所有数据
    $allRatings = getAllUserRatings();
    $targetRatings = $allRatings[$targetUserId] ?? [];
    
    // 获取物品相似度矩阵（应预先计算并缓存）
    $itemSimMatrix = getItemSimilarityMatrix();
    
    // 预测未评分物品
    $predictions = [];
    $ratedMovies = array_keys($targetRatings);
    $targetAvg = empty($targetRatings) ? 0 : array_sum($targetRatings) / count($targetRatings);
    
    foreach ($itemSimMatrix as $movieId => $similarItems) {
        if (!isset($targetRatings[$movieId])) {
            $numerator = $denominator = 0.0;
            
            foreach ($similarItems as $similarMovieId => $similarity) {
                if (isset($targetRatings[$similarMovieId]) && $similarity > 0) {
                    $numerator += $similarity * $targetRatings[$similarMovieId];
                    $denominator += abs($similarity);
                }
            }
            
            if ($denominator > 0) {
                $predictions[$movieId] = $numerator / $denominator;
            }
        }
    }
    
    // 排序并返回Top N
    arsort($predictions);
    return array_slice($predictions, 0, $n, true);
}

5. 性能优化实战策略

5.1 离线计算与实时查询分离

推荐系统通常采用"离线计算相似度矩阵 + 实时生成推荐"的混合架构：

code复制┌───────────────────────┐    ┌───────────────────────┐
│     离线计算模块        │    │     实时推荐模块       │
│                       │    │                       │
│ 1. 计算用户相似度矩阵   │───▶│ 1. 加载预计算矩阵      │
│ 2. 计算物品相似度矩阵   │    │ 2. 处理用户实时请求     │
│ 3. 生成热门推荐列表     │    │ 3. 混合多种推荐结果     │
└───────────────────────┘    └───────────────────────┘

PHP实现可以通过定时任务完成离线计算：

php复制// 在Laravel中设置定时任务计算相似度矩阵
protected function schedule(Schedule $schedule) {
    $schedule->call(function () {
        // 计算用户相似度矩阵
        $userSimMatrix = computeUserSimilarityMatrix();
        Cache::put('user_sim_matrix', $userSimMatrix, 1440); // 缓存24小时
        
        // 计算物品相似度矩阵
        $itemSimMatrix = computeItemSimilarityMatrix();
        Cache::put('item_sim_matrix', $itemSimMatrix, 1440);
    })->dailyAt('3:00'); // 每天凌晨3点执行
}

5.2 内存缓存优化

使用Redis缓存关键数据结构和计算结果：

用户最近评分记录
热门电影列表
相似度矩阵
临时推荐结果

php复制function getRecommendedItems($userId) {
    $cacheKey = "recommendations:$userId";
    $expireMinutes = 120; // 2小时缓存
    
    if (Redis::exists($cacheKey)) {
        return json_decode(Redis::get($cacheKey), true);
    }
    
    // 计算推荐结果
    $userBased = userBasedCF($userId);
    $itemBased = itemBasedCF($userId);
    $hybridResults = mergeRecommendations($userBased, $itemBased);
    
    // 缓存结果
    Redis::setex($cacheKey, $expireMinutes * 60, json_encode($hybridResults));
    
    return $hybridResults;
}

6. 前端交互实现技巧

6.1 评分组件实现

使用Vue.js构建响应式评分组件：

html复制<template>
  <div class="rating-wrapper">
    <div v-for="star in 5" :key="star" 
         @click="rate(star)"
         @mouseover="hoverRating = star"
         @mouseleave="hoverRating = 0"
         :class="['star', { 'active': star <= currentRating || star <= hoverRating }]">
      ★
    </div>
    <div v-if="rated" class="rating-message">感谢您的评分！</div>
  </div>
</template>

<script>
export default {
  props: ['movieId'],
  data() {
    return {
      currentRating: 0,
      hoverRating: 0,
      rated: false
    }
  },
  methods: {
    rate(star) {
      this.currentRating = star;
      this.rated = true;
      
      // 发送评分到后端
      axios.post('/api/rate', {
        movie_id: this.movieId,
        rating: star
      }).then(response => {
        console.log('评分成功', response.data);
      });
    }
  }
}
</script>

<style>
.star {
  display: inline-block;
  font-size: 24px;
  color: #ccc;
  cursor: pointer;
  transition: color 0.2s;
}
.star.active {
  color: #ffc107;
}
.rating-message {
  margin-top: 8px;
  color: #4CAF50;
}
</style>

6.2 推荐列表懒加载

实现无限滚动加载更多推荐：

javascript复制// Vue组件中实现无限滚动
export default {
  data() {
    return {
      recommendations: [],
      loading: false,
      page: 1,
      hasMore: true
    }
  },
  mounted() {
    this.loadRecommendations();
    window.addEventListener('scroll', this.handleScroll);
  },
  methods: {
    handleScroll() {
      const bottomOfWindow = 
        document.documentElement.scrollTop + window.innerHeight >= 
        document.documentElement.offsetHeight - 200;
      
      if (bottomOfWindow && !this.loading && this.hasMore) {
        this.page++;
        this.loadRecommendations();
      }
    },
    async loadRecommendations() {
      this.loading = true;
      try {
        const response = await axios.get('/api/recommendations', {
          params: { page: this.page }
        });
        
        if (response.data.length === 0) {
          this.hasMore = false;
        } else {
          this.recommendations = [...this.recommendations, ...response.data];
        }
      } catch (error) {
        console.error('加载推荐失败', error);
      } finally {
        this.loading = false;
      }
    }
  },
  beforeDestroy() {
    window.removeEventListener('scroll', this.handleScroll);
  }
}

7. 系统评估与调优

7.1 离线评估指标实现

实现RMSE（均方根误差）评估：

php复制function calculateRMSE($testRatings, $predictions) {
    $sumSquaredError = 0.0;
    $count = 0;
    
    foreach ($testRatings as $userId => $ratings) {
        foreach ($ratings as $movieId => $actualRating) {
            if (isset($predictions[$userId][$movieId])) {
                $predictedRating = $predictions[$userId][$movieId];
                $error = $actualRating - $predictedRating;
                $sumSquaredError += $error * $error;
                $count++;
            }
        }
    }
    
    return $count > 0 ? sqrt($sumSquaredError / $count) : INF;
}

7.2 A/B测试框架

实现简单的A/B测试框架对比算法效果：

php复制class ABTest {
    private $algorithms = [];
    private $testGroups = [];
    private $results = [];
    
    public function addAlgorithm($name, callable $algorithm) {
        $this->algorithms[$name] = $algorithm;
        $this->results[$name] = [
            'clicks' => 0,
            'impressions' => 0,
            'total_rating' => 0,
            'count_rating' => 0
        ];
    }
    
    public function assignToGroup($userId) {
        if (!isset($this->testGroups[$userId])) {
            $algoNames = array_keys($this->algorithms);
            $this->testGroups[$userId] = $algoNames[array_rand($algoNames)];
        }
        return $this->testGroups[$userId];
    }
    
    public function getRecommendations($userId) {
        $algoName = $this->assignToGroup($userId);
        $this->results[$algoName]['impressions']++;
        return call_user_func($this->algorithms[$algoName], $userId);
    }
    
    public function recordClick($userId) {
        $algoName = $this->assignToGroup($userId);
        $this->results[$algoName]['clicks']++;
    }
    
    public function recordRating($userId, $rating) {
        $algoName = $this->assignToGroup($userId);
        $this->results[$algoName]['total_rating'] += $rating;
        $this->results[$algoName]['count_rating']++;
    }
    
    public function getResults() {
        $summary = [];
        
        foreach ($this->results as $name => $data) {
            $summary[$name] = [
                'ctr' => $data['impressions'] > 0 
                    ? $data['clicks'] / $data['impressions'] : 0,
                'avg_rating' => $data['count_rating'] > 0 
                    ? $data['total_rating'] / $data['count_rating'] : 0
            ];
        }
        
        return $summary;
    }
}

8. 部署与扩展实践

8.1 服务器配置建议

对于中等流量网站（日PV 10万左右），推荐以下Nginx配置：

nginx复制server {
    listen 80;
    server_name yourdomain.com;
    
    root /var/www/recommendation/public;
    index index.php;
    
    location / {
        try_files $uri $uri/ /index.php?$query_string;
    }
    
    location ~ \.php$ {
        fastcgi_pass unix:/var/run/php/php7.4-fpm.sock;
        fastcgi_index index.php;
        fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name;
        include fastcgi_params;
        
        # 增加缓冲区大小
        fastcgi_buffers 16 16k;
        fastcgi_buffer_size 32k;
        
        # 超时设置
        fastcgi_read_timeout 300;
    }
    
    # 静态资源缓存
    location ~* \.(jpg|jpeg|png|gif|ico|css|js)$ {
        expires 30d;
        add_header Cache-Control "public, no-transform";
    }
    
    # 限制上传大小
    client_max_body_size 20M;
}

8.2 系统扩展方向

混合推荐策略：
- 结合协同过滤与内容过滤
- 加入时间衰减因子，更重视近期行为
- 引入社交关系数据

实时推荐处理：

php复制// 使用消息队列处理实时行为
$redis->publish('user_events', json_encode([
    'user_id' => $userId,
    'event_type' => 'rating',
    'movie_id' => $movieId,
    'rating' => $rating,
    'timestamp' => time()
]));

// 后台Worker处理实时事件
function processRealTimeEvents() {
    $redis = new Redis();
    $redis->subscribe(['user_events'], function ($redis, $channel, $message) {
        $event = json_decode($message, true);
        updateUserProfile($event['user_id'], $event);
        updateItemSimilarity($event['movie_id']);
    });
}

微服务化改造：

code复制┌─────────────┐   ┌─────────────┐   ┌─────────────┐
│ 用户服务     │   │ 电影服务    │   │ 推荐服务    │
│             │   │             │   │             │
│ - 用户管理   │──▶│ - 电影信息  │──▶│ - 离线计算  │
│ - 认证授权   │   │ - 分类管理  │   │ - 实时推荐  │
└─────────────┘   └─────────────┘   └─────────────┘
       ▲                   ▲                  ▲
       │                   │                  │
       └───────────────────┴──────────────────┘
                  API网关统一入口

9. 实战经验与避坑指南

9.1 冷启动问题解决方案

新用户或新物品缺乏足够数据时，可采用以下策略：

热门推荐兜底：

php复制function getPopularMovies($limit = 10) {
    $cacheKey = 'popular_movies';
    if ($redis->exists($cacheKey)) {
        return json_decode($redis->get($cacheKey), true);
    }
    
    $movies = DB::table('ratings')
        ->select('movie_id', DB::raw('AVG(rating) as avg_rating'), DB::raw('COUNT(*) as rating_count'))
        ->groupBy('movie_id')
        ->having('rating_count', '>', 10)
        ->orderByDesc('avg_rating')
        ->orderByDesc('rating_count')
        ->limit($limit)
        ->get()
        ->toArray();
    
    $redis->setex($cacheKey, 3600, json_encode($movies));
    return $movies;
}

混合内容特征：结合电影类型、导演、演员等元数据
引导评分策略：对新用户展示精心设计的评分引导流程

9.2 常见性能瓶颈与优化

相似度计算优化：
- 使用近似算法减少计算量
- 只计算活跃用户的相似度
- 采用MapReduce分布式计算

内存管理技巧：

php复制// 分批处理大数据集
function batchProcessUsers($batchSize = 1000) {
    $totalUsers = DB::table('users')->count();
    $batches = ceil($totalUsers / $batchSize);
    
    for ($i = 0; $i < $batches; $i++) {
        $users = DB::table('users')
            ->offset($i * $batchSize)
            ->limit($batchSize)
            ->get();
        
        foreach ($users as $user) {
            // 处理每个用户
            processUser($user->id);
        }
        
        // 显式释放内存
        unset($users);
        gc_collect_cycles();
    }
}

数据库查询优化：
- 为ratings表添加复合索引 (user_id, movie_id)
- 使用覆盖索引减少回表查询
- 对大表进行分区处理

10. 项目总结与演进思考

在实际部署这个推荐系统的过程中，我发现基于用户的协同过滤在新用户较少的场景下表现不佳，而基于物品的方法则相对稳定。最终的解决方案是采用混合策略：对新用户主要使用物品CF+热门推荐，当用户积累足够行为数据后再引入用户CF。

系统目前还存在几个可以改进的方向：

实时特征工程：捕获用户的实时浏览、搜索行为
深度学习模型：尝试神经协同过滤等先进算法
多目标优化：不仅优化点击率，还要考虑多样性、新颖性等指标

一个实用的建议是：在项目初期不要过度追求算法复杂度，而应该先建立一个简单可用的基线系统，通过A/B测试逐步迭代优化。这套PHP实现的协同过滤系统虽然不算最先进的方案，但它简单可靠、易于理解和调试，是很多中小型电影网站推荐系统的理想起点。