TaxPaas서비스 개발계획1


1. Auto input

지금은 여러 서류들 중 W2, 그리고 그 중 기본적인 형태의 문서만 처리 가능.
서비스 가능한 수준으로 발전하려면

큰 문제들

  • 외곽이 열려있는 표를 인식할 수 있어야 한다.
  • 체크박스를 표 내에서 구분할 수 있어야 한다.
  • 인식하지 못하는 경우에 예외처리를 시켜야 한다.
  • 인식하지 못하는 경우에 쉽게 사용할 수 있는 대체 방법을 제공해야 한다.

작은 문제들

  • 점선 처리
  • 쓰지 않는 테이블 최 외곽선 제거

쓰고 있는 기술

  • PIL
  • OpenCv
  • python

2. 서버 구축

지금은 로컬에서 레디스와 tesseract, 장고, redis-queue, 그리고 몇가지 라이브리러리를 가져와서 운영중. 서비스 가능한 수준으로 발전하려면

  • 큐를 15분 정도로 보관할 장소로 레디스 사용 목적을 바꾼다.
  • 큐의 종류를 다양화하고 워커를 상황에 따라 자동으로 증가시키기.
  • 등등

인사이트

  • 체크박스 검출기
  1. 체크박스는 다른 테이블보다 작다.
  2. 수평선의 개수가 더 적다
  3. 체크박스는 정사각형 모양에 가깝다.
  4. 체크박스의 선들은 글자 선보다 진한 편이다.

그래서 지금 할일

  • 매일 하루에 하나씩 서류 처리해보기

처리한 일

  • 열려있는 테이블 윤곽선 닫아주기





© 2017. by yunsu

Powered by dolphin