Python自动化求职：Scrapy与Selenium实现智能职位申请

Diane Lockhart

1. 项目概述：数据抓取驱动的职位申请自动化探索

最近在帮朋友优化求职流程时，发现重复性的职位搜索和申请工作消耗了大量时间。于是尝试用Python构建了一个自动化系统，通过抓取招聘网站数据实现智能职位匹配和自动申请。这个方案将传统需要数小时的手动操作压缩到几分钟内完成，同时通过条件筛选提高了岗位匹配精准度。

核心流程分为三个模块：首先用Scrapy框架抓取目标网站的职位信息，然后通过预设条件（如薪资范围、技能要求、地理位置）进行自动过滤，最后调用Selenium完成一键投递。测试期间，系统在Indeed和LinkedIn上实现了85%的申请成功率，平均每个岗位处理时间仅需23秒。

2. 技术架构解析

2.1 数据采集层设计

选择Scrapy而非Requests库主要考虑三点：一是内置的异步处理机制可同时抓取多个页面；二是自动的请求去重和重试机制保障稳定性；三是XPath/CSS选择器组合使字段提取更灵活。针对反爬措施，我们配置了：

python复制DOWNLOAD_DELAY = 2.5
CONCURRENT_REQUESTS_PER_DOMAIN = 1 
ROBOTSTXT_OBEY = True

实际抓取时发现LinkedIn采用动态加载，通过分析其API接口发现可用如下方式获取结构化数据：

python复制def parse(self, response):
    data = json.loads(response.xpath('//script[@type="application/ld+json"]/text()').get())
    yield {
        'title': data['title'],
        'company': data['hiringOrganization']['name'],
        'location': data['jobLocation']['address']['addressLocality']
    }

2.2 智能匹配引擎

采用基于权重的匹配算法，为不同条件分配优先级分数。例如Python技能设为50分，5年经验加30分，远程办公加20分。当总分超过阈值（通常设为70）时触发自动申请。核心计算逻辑：

python复制def calculate_match(job_desc):
    score = 0
    keywords = {
        'python': 50, 
        'django': 30,
        'aws': 20,
        'remote': 15
    }
    for term, value in keywords.items():
        if term in job_desc.lower():
            score += value
    return score > THRESHOLD

测试中发现直接匹配关键词可能误判，后来加入NLTK的词形还原处理（lemmatization）提升准确率：

python复制from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
normalized_text = [lemmatizer.lemmatize(word) for word in text.split()]

3. 自动化申请实现

3.1 Selenium操作优化

针对不同招聘网站开发定制化操作脚本。以Indeed为例，完整申请流程包括：

使用显式等待避免时序问题：

python复制WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, "apply-button"))
).click()

文件上传处理：

python复制driver.find_element(By.XPATH, "//input[@type='file']").send_keys(resume_path)

多步骤表单自动填写：

python复制fields = {
    'firstName': 'John',
    'lastName': 'Doe',
    'email': 'john@example.com'
}
for id, value in fields.items():
    driver.find_element(By.ID, id).send_keys(value)

3.2 验证码应对方案

遇到reCAPTCHA时采用三种策略：一是设置足够长的操作间隔（每个步骤间隔3-5秒）；二是复用已登录的浏览器会话；三是自动识别验证码出现时机，转为人工干预模式。关键检测代码：

python复制try:
    if driver.find_elements(By.CLASS_NAME, 'g-recaptcha'):
        print('Captcha detected - pausing for manual intervention')
        time.sleep(300)  # 5分钟人工处理窗口
except StaleElementReferenceException:
    pass

4. 实战问题与解决方案

4.1 数据抓取稳定性

初期遇到IP被封问题，通过以下措施解决：

使用住宅代理轮换（Luminati等商业服务）
动态User-Agent伪装：

python复制USER_AGENTS = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64)',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)'
]
headers = {'User-Agent': random.choice(USER_AGENTS)}

4.2 申请成功率优化

监测发现部分申请因简历格式被拒，改进方案：

根据职位类型自动选择匹配的简历版本（技术岗突出项目经验，管理岗强调领导力）
使用PyPDF2解析JD关键词，动态调整简历内容：

python复制pdf_reader = PyPDF2.PdfFileReader(open(jd_path, 'rb'))
text = ''.join([pdf_reader.getPage(i).extractText() for i in range(pdf_reader.numPages)])