TaxPaas서비스 개발계획1
1. Auto input
지금은 여러 서류들 중 W2, 그리고 그 중 기본적인 형태의 문서만 처리 가능.
서비스 가능한 수준으로 발전하려면
큰 문제들
- 외곽이 열려있는 표를 인식할 수 있어야 한다.
- 체크박스를 표 내에서 구분할 수 있어야 한다.
- 인식하지 못하는 경우에 예외처리를 시켜야 한다.
- 인식하지 못하는 경우에 쉽게 사용할 수 있는 대체 방법을 제공해야 한다.
작은 문제들
- 점선 처리
- 쓰지 않는 테이블 최 외곽선 제거
쓰고 있는 기술
- PIL
- OpenCv
- python
2. 서버 구축
지금은 로컬에서 레디스와 tesseract, 장고, redis-queue, 그리고 몇가지 라이브리러리를 가져와서 운영중. 서비스 가능한 수준으로 발전하려면
- 큐를 15분 정도로 보관할 장소로 레디스 사용 목적을 바꾼다.
- 큐의 종류를 다양화하고 워커를 상황에 따라 자동으로 증가시키기.
- 등등
인사이트
- 체크박스 검출기
- 체크박스는 다른 테이블보다 작다.
- 수평선의 개수가 더 적다
- 체크박스는 정사각형 모양에 가깝다.
- 체크박스의 선들은 글자 선보다 진한 편이다.
그래서 지금 할일
- 매일 하루에 하나씩 서류 처리해보기
처리한 일
- 열려있는 테이블 윤곽선 닫아주기