inforaberta2013 ocr-anatomia-patologica

40
Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados. OCR através de momentos invariantes David Fernandes UAb 9 de Março de 2013 [email protected] David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic 9 de Março de 2013 1 / 40

Upload: david-fernandes

Post on 06-Aug-2015

123 views

Category:

Documents


5 download

TRANSCRIPT

Extracção e codificação de conteúdo derelatórios de exames anatomo-patológicos

dactilografados.OCR através de momentos invariantes

David Fernandes

UAb

9 de Março de 2013

[email protected]

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 1 / 40

Orientação

Professora Gracinda Carvalho (UAb)

Dra Cristina Gonçalves (Hospital de Santo António - CHP)

Apoio

Laboratório de Anatomia Patológica Doutores J PereiraGuedes, Silva Caspurro e Manuel Dias

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 2 / 40

P R O J E C T O

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 3 / 40

ProjectoAnatomia patológica

especialidade médica

diagnostica doenças

exame macroscópico de peças cirúrgicas

exame microscópico de células (citologia) e tecidos(histologia)

biopsia, raspagem, agulha

produção de relatório

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 4 / 40

Anatomia patológicaRelatórios de exame

texto livre

identificação do paciente

informação sobre a colheita

imagem microscópica das células/tecidos

descrição das peças/tecidos => observação macroscópica

observação microscópica

diagnóstico

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 5 / 40

Anatomia patológicaRelatórios de exame

Clinical Data

IRON DEFICIENCY ANEMIA

5747 Hoover Blvd

813.123.4567

813.884.2849

813.890.0143

Tampa, Florida 33634

SAMPLE CLIENT

1234 Test Street

Tampa, Florida 33333

Patient Name

SAMPLE, PATIENTAccession Number

1REL-05-03358

ChartNumber

Collected

3/2/2005

Requesting Physician

SAMPLE PHYSICIAN, M.D.

Referring Physician

Received

3/2/2005

Sex

M

Reported

3/3/2005

Age (DOB)

55 (09/29/1949)

AccountNumber1

Phone:

Fax:

PATHOLOGY REPORT

Electronically signed by SAMPLE PATHOLOGIST, M.D.Pathology report provided by Reliance Pathology Partners, LLCPg 1 of 1

MICROSCOPIC DESCRIPTION

Colonic tissue fragments showing irregularly shaped malignant tumor glandslined by pleomorphic cells with nuclear hyperchromasia. Malignant cellsinfiltrate the submucosa and have an associated desmoplastic andinflammatory response.

SPECIMEN 01 CECUM COLON, BIOPSY

SPECIMEN 01, CECUM COLON, BIOPSY:DIAGNOSIS:Colonic tissue fragments with invasive adenocarcinoma, well to moderately differentiated.

GROSS DESCRIPTION: Received in formalin, labeled with the patient's name and "cecal mass biopsy" are multiple portions oftan-white soft tissue measuring 0.6 x 0.6 x 0.2 cm in aggregate, which are submitted in toto in one cassette labeled 1A. kaf/m

SPECIMEN 02, DESCENDING COLON, BIOPSY:DIAGNOSIS:Tubular adenoma (adenomatous polyp).

GROSS DESCRIPTION: Received in formalin, labeled with the patient's name and "descending colon polyp" is a tan-pink polypmeasuring 0.7 x 0.7 x 0.3 cm. The specimen is bisected and submitted in its entirety in one cassette labeled 2A. kaf/s

MICROSCOPIC DESCRIPTION: Polypoid colonic mucosa with increased number of glands, glandular crowding and mucindepletion in some of the glands. The glands are lined by cells with enlarged and hyperchromatic nuclei.

CASE COMMENTS: Dr. Sample's office has been notified of the findings by telephone on 3/3/05.

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 6 / 40

Anatomia patológicaRelatórios de exame

Page 1PATIENT INFORMATIONJOHN DOEAge: 84 yearsDate of Birth: 11/09/23

Location/ID: PRIVATE OFFICE

PHYSICIANJOHN SMITH, M.D1234 JOHN WAYHERCULES, CA 94547

SPECIMEN INFORMATION

Accession # WCS­08­99999

Collected: 02/17/2008Received: 02/18/2008Reported: 02/20/2008

SPECIMEN SITE / COMMENTS1. SPECIMEN SITE ­ PROSTATE, LEFT BASE

2. SPECIMEN SITE ­ PROSTATE, LEFT LATERAL BASE

3. SPECIMEN SITE ­ PROSTATE, RIGHT BASE

GROSS DESCRIPTION1. Left base ­ Two cores measuring from 1.5 to 1.7 cm. Labeled "L21."

2. Left lateral base ­ Two cores measuring from 1.3 to 1.6 cm. Labeled "L2." 

3. Right base ­ One core measuring 1.6 cm. Labeled "R1."

MICROSCOPIC DESCRIPTION

The biopsies show a malignant neoplasm composed of small tubular glands which in many areas form single cells and cribriformstructures.

FINAL DIAGNOSIS1. Prostate, left base, needle biopsy­ ADENOCARCINOMA, GLEASON SCORE OF 4+4.­ TUMOR OCCUPIES APPROXIMATELY 70% OF THE BIOPSY VOLUME.2. Prostate, left lateral base, needle biopsy­ ADENOCARCINOMA, GLEASON SCORE OF 4+4.­ TUMOR OCCUPIES APPROXIMATELY 80% OF THE BIOPSY VOLUME.3. Prostate, right base, needle biopsy­ ADENOCARCINOMA, GLEASON SCORE OF 3+4.­ TUMOR OCCUPIES APPROXIMATELY 50% OF THE BIOPSY VOLUME.

John Compagno, M.D.Original Report Reviewed and Verified

712 Alf red Nobel Driv e . Hercules, CA 94547 . toll f ree 800.794.9737 . f ax 510.662.5240 . www.wcpl.com . John Compagno, M.D., Medical Director

PATHOLOGY/CYTOPATHOLOGY CONSULTATION REPORT

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 7 / 40

Anatomia patológicaRelatórios de exame

Page 1PATIENT INFORMATIONJOHN DOEAge: 45 yearsDate of Birth: 03/22/62

Location/ID: 123456

PHYSICIANJOHN SMITH, M.D1234 JOHN WAYHERCULES, CA 94547

SPECIMEN INFORMATION

Accession # WCC­08­99999

Collected: 01/11/2008Received: 01/12/2008Reported: 01/13/2008

SPECIMEN SITE / COMMENTS

* SPECIMEN SITE ­ URINE CYTOLOGY

GROSS DESCRIPTION

Received is 150 cc`s of yellow fluid which is used for the preparation of aThinPrep.

MICROSCOPIC DESCRIPTION

The urine cytology shows individual urothelial cells. They show small central nuclei without increased N/C ratios. Papillary clusters arenot seen. There is an increase in the amount of inflammation with numerous clusters of neutrophils. 

FINAL DIAGNOSIS

Urine cytology­ ABUNDANT ACUTE INFLAMMATION.­ NO MALIGNANT CHANGES SEEN.

Wayne Garrett, D.O. PathologistOriginal Report Reviewed and Verified

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 8 / 40

Anatomia patológicaRelatórios de exame

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 9 / 40

Anatomia patológicaRelatórios de exame

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 10 / 40

ProjectoObjectivo

digitalização dos relatórios (OCR)

extracção de conteúdo (NLP)codificação com SNOMED CT (Systematized NomenclatureOf Medicine Clinical Terms)

conceitos, descrições e relações(Clinical finding/disorder, Procedure/intervention, Observableentity, Body structure, Organism, Substance,Pharmaceutical/biologic product, Specimen, Specialconcept, Physical object, Physical force, Event, Environmentor geographical location, Social context, Staging and scales)

ferramenta de consulta

.. e exploração estatística

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 11 / 40

E X T R A C Ç Ã OD E

C O N T E Ú D O

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 12 / 40

Análise de imagemExtracção de conteúdo

aquisição da imagemprocessamento prévio

detecção de orientação (retrato ou paisagem)correcção de inclinaçãosimplificação de cor (escala de cinzentos ou PB)eliminação de ruído positivo e negativoconvoluções (unblur, detectores de fronteira, ...)

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 13 / 40

Análise de imagemExtracção de características

smooth

threshold

erode

delate

contours

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 14 / 40

Análise de imagemExtracção de características

segmentação do documento

extracção de caracteres

identificação de características

classificação

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 15 / 40

Reconhecimento de padrõesOCR - Identificação de características

utilização de descritores de forma

baseado em contornos

baseados em áreas

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 16 / 40

Reconhecimento de padrõesClassificação

agrupamento das características observadas em classeseficiência dependente da relação

variabilidade da característica dentro de uma classevariabilidade da característica entre classes

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 17 / 40

Reconhecimento de padrõesClassificadores

rede neuronal (perceptrão multi-layer) (MLP)

k-vizinhos mais próximos (knn)

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 18 / 40

M O M E N T O SI N V A R I A N T E S

Descritores de forma baseados em controno

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 19 / 40

Momentos invariantesDefinição

soma das intensidades dos pixeis de uma imagem

escala de cinzentos

RGB - implica o cálculo de momentos por canalimagens binárias (P/B) interesse particular

área, centroide, orientação

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 20 / 40

Momentos invariantesOrigem

teoria dos invariantes algébricos (séc. XIX)

relações com a física

relações com a estatística

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 21 / 40

Momentos invariantesEsboço de definição

têm em conta as duas dimensões da imagem (x, y)

possuem graus (ordens) de acordo com o peso(ponderação) que se pretenda dar a cada uma dascomponentes (x, y)

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 22 / 40

Momentos invariantesExemplo

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 23 / 40

Momentos invariantesMomentos geométricos

Momento geométrico de ordem(i + j)

mij = ∑x

∑y

x iy j · I(x , y)

I(x , y)→ intensidade do pixel na posição(x , y)

m00 → área ocupada pela imagem; número de pixeis da imagem

x =m10

m00→ ordenada central

y =m01

m00→ abcissa central

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 24 / 40

Momentos invariantesMomentos centrados

µij = ∑x

∑y(x − x)i(y − y)j · I(x , y)

invariantes a translações e a inversões (! sinal)

x =m10

m00→ ordenada central

y =m01

m00→ abcissa central

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 25 / 40

Momentos centradosDetecção de orientação

A partir dos momentos centrados de segunda ordem:

µ′20 =µ20

µ00

µ′02 =µ02

µ00

µ′11 =µ11

µ00

Θ =12

atan(2µ′11

µ′20 − µ′02)

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 26 / 40

Momentos invariantesMomentos normalizados

ηij =µij

µ(1+ i+j

2 )

00

adicionam invariância a escala

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 27 / 40

Momentos invariantes

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 28 / 40

Momentos invariantes

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 29 / 40

Momentos invariantes

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 30 / 40

Momentos invariantesMomentos de Hu

Sete momentos propostos por M. K. Hu em 1962,calculados apartir de momentos normalizados de segunda e terceira ordens:

I1 = η20 + η02

I2 = (η20 − η02)2 + 4η2

11

· · ·

I7 = (3µ21 − η03)(η30 + η12)[(η30 + η12)2 − 3(η21 + η03)

2]− · · ·

apresentam invariância adicional a rotação

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 31 / 40

C L A S S I F I C A Ç Ã O

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 32 / 40

ClassificaçãoRedes neuronais

modelo de neurónio de McCulloch e Pitts (1942)

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 33 / 40

ClassificaçãoRedes neuronais

Figura: Sigmoide

f (x) = β1− e−αx

1 + e−αx

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 34 / 40

ClassificaçãoMLP - Multi-layer perceptron

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 35 / 40

MLP - Multi-layer perceptronTreino

fornecimento de entradas e saídas esperadas

inicialização dos pesos

cálculo das saídas e do erro em relação ao esperado

propagação inversa do erro pelos pesos

recálculo das saídas

...

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 36 / 40

R E S U L T A D O S

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 37 / 40

Resultados

.... em curso

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 38 / 40

C O N C L U S Ã O

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 39 / 40

Conclusão

muitos, variados e aliciantes pontos de interesse

problemas gráficos

relacionados com IA e ML

NLP

estruturação de informação ... desestruturada

desenvolvimento WEB

etc

David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 40 / 40