Cyrus Blog

FLAG{S0_H4PPY_C_U_H3R3} (>.<)

爬虫入门 0x02 验证码识别(未完成)

本文共 200 字,预计阅读时间 1 分钟。

环境:

1
2
3
 style="margin-left: 40px;">
Windows 10 64-bit
Python 2.7

使用的库:

1
2
3
4
 style="margin-left: 40px;">
pytesseract
PIL (Pillow) 64-bit
Tesseract-OCR 64-bit

各种问题:

  • 本来用的Py3,pytesseract需要PIL(Pillow)支持,然后PIL没有Py3版本,切换到Py2。
  • PIL官方没有64bit。。。找了民间64-bit版。
  • PIL报WinError2找不到文件,需要Tesseract-OCR支持。
  • pytesseract报错找不到_imaging.c,然而就算单独装了也没有用。无法import _imaging。
    原因为Tesseract-OCR也要64-bit。。。找民间版装上。
  • pytesseract报WinError2(File "C:\Python27\lib\subprocess.py", line 959, in _execute_child)。
    原因不明,PyCharm报错,用命令行可运行。(←如同Xcode一般的IDE-bug
    6/2500 的正确率,被隔壁 Mathematica 6/20识别率虐成狗。。。
  • 然后发现Post的时候会Refresh captcha。。。
     

原标题:验证码识别从入门到放弃~~