Cyrus Flag

flag{S0_bangbang_7ha7_u_f1nd_h3r3}

爬虫入门 0x02 验证码识别(未完成)

环境:

1
2
3
 style="margin-left: 40px;">
Windows 10 64-bit
Python 2.7

使用的库:

1
2
3
4
 style="margin-left: 40px;">
pytesseract
PIL (Pillow) 64-bit
Tesseract-OCR 64-bit

各种问题:

  • 本来用的Py3,pytesseract需要PIL(Pillow)支持,然后PIL没有Py3版本,切换到Py2。
  • PIL官方没有64bit。。。找了民间64-bit版。
  • PIL报WinError2找不到文件,需要Tesseract-OCR支持。
  • pytesseract报错找不到_imaging.c,然而就算单独装了也没有用。无法import _imaging。

    原因为Tesseract-OCR也要64-bit。。。找民间版装上。

  • pytesseract报WinError2(File "C:\Python27\lib\subprocess.py", line 959, in _execute_child)。

    原因不明,PyCharm报错,用命令行可运行。(←如同Xcode一般的IDE-bug

    6/2500 的正确率,被隔壁 Mathematica 6/20识别率虐成狗。。。

  • 然后发现Post的时候会Refresh captcha。。。

 

原标题:验证码识别从入门到放弃~~