estudodarededepatentesbrasileira joãovitorbarbosatavares projeto de graduação ... · 2016. 3....

ESTUDO DA REDE DE PATENTES BRASILEIRA

João Vitor Barbosa Tavares

Projeto de Graduação apresentado ao Cursode Engenharia de Computação e Informaçãoda Escola Politécnica, Universidade Federaldo Rio de Janeiro, como parte dos requisitosnecessários à obtenção do título de Engenheiro.

Orientador: Daniel Ratton Figueiredo

Rio de JaneiroFevereiro de 2016

b

Aos meu pais, meus irmãos eminha futura esposa

Agradecimentos

Primeiramente, agradeço ao meu Deus pela sua graça e infinitas bençãos emminha vida.

Agradeço à minha família e sobretudo meus pais por todo apoio e incentivo quesempre me deram. Obrigador por me amarem e cuidarem de mim.

À minha namorada e futura esposa, por sempre acreditar em mim, mesmoquando eu não acreditava. Por todo seu carinho, amor e dedicação. Você é amelhor namorada do mundo. Amo você.

Agradeço ao meu orientador, Prof. Daniel Ratton Figueiredo por compartilharseu tempo e conhecimento comigo. E aos professores da UFRJ que contribuírampara o meu aprendizado.

c

Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ comoparte dos requisitos necessários para a obtenção do grau de Engenheiro deComputação.

ESTUDO DA REDE DE PATENTES BRASILEIRA


Fevereiro/2016

Orientador: Daniel Ratton Figueiredo

Curso: Engenharia de Computação e Informação

Redes são abstrações criadas a partir de um conjunto qualquer de objetos re-lacionados par-a-par. Estes relacionamentos podem dar origem a diversos tipos deredes, tais como redes de colaboração, redes de proteínas, redes de energia, entreoutras. Patentes têm sido utilizadas para dar origem a redes de coautoria entreinventores e redes de citações entre patentes.

Neste trabalho a base de patentes brasileira é utilizado para construir a rede decolaboração entre depositantes. Os vértices da rede são as instituições depositantese arestas indicam que dois vértices depositaram uma patente em conjunto. Osvértices são divididos em duas categorias com o objetivo de analisar a interaçãoentre industria e academia. Além disso, são propostas métricas para identificar osvértices mais centrais da rede, ou seja, que possuem maior influência.

Palavras-chave: Redes de Colaboração, Patentes, Instituições, Homofilia, Centrali-dade.

d

Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillmentof the requirements for the degree of Engineer.

A STUDY ABOUT BRAZILIAN PATENTS NETWORK


February/2016

Advisor: Daniel Ratton Figueiredo

Course: Computer Engineering

A network is a collection of objects joined together in pairs by lines. Theseobjects can generate varius type of networks, such as collaborative networks, proteinnetworks, energy networks, and so on. Patents database have been used to createco-authorship network among inventors and citations network among patents.

In this work, the brazilian patent database was used to create a network amonginstitutions. The vertices of the network are the institutions that place patents inBrasil and edges indicate that two vertices placed a patent together. The verticesare grouped in two classes in order to analyze the interaction between industry anduniversities. Futhermore, is it proposed metrics to identify the most centrals verticesof the network.

Keywords: Collaboration Network, Patents, Institutions, Homophily, Centrality.

e

Sumário

Lista de Figuras h

Lista de Tabelas i

1 Introdução 1

2 Redes 32.1 Caracterizando Redes . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 Distribuição de Grau . . . . . . . . . . . . . . . . . . . . . . . 62.1.2 Distâncias e Small World . . . . . . . . . . . . . . . . . . . . 82.1.3 Componentes Conexas . . . . . . . . . . . . . . . . . . . . . . 92.1.4 Redes Livres de Escala . . . . . . . . . . . . . . . . . . . . . . 92.1.5 Centralidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.6 Homofilia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Patentes e Redes de Colaboração 153.1 Tipos de Redes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1.1 Redes de Colaboração . . . . . . . . . . . . . . . . . . . . . . 163.1.2 Rede de Citação de Patentes . . . . . . . . . . . . . . . . . . . 17

3.2 Trabalhos Similares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.3 Patentes Brasileiras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3.1 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.3.2 Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4 Rede de Patentes Brasileira 224.1 Construindo a Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.2 Análise da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.2.1 Distribuição de Grau . . . . . . . . . . . . . . . . . . . . . . . 244.2.2 Componentes Conexas . . . . . . . . . . . . . . . . . . . . . . 254.2.3 Centralidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.2.4 Homofilia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

f

SUMÁRIO g

5 Software 295.1 Criação e Análise da Rede . . . . . . . . . . . . . . . . . . . . . . . . 29

5.1.1 Parser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295.1.2 Gerador de Estatísticas . . . . . . . . . . . . . . . . . . . . . . 305.1.3 Gerador da Rede . . . . . . . . . . . . . . . . . . . . . . . . . 315.1.4 Análise da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.2 Portal Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325.2.1 Intervalo de tempo . . . . . . . . . . . . . . . . . . . . . . . . 335.2.2 Atualização da Rede . . . . . . . . . . . . . . . . . . . . . . . 33

6 Conclusão 346.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Referências Bibliográficas 36

Lista de Figuras

2.1 Rede de amizade entre um grupo de pessoas. . . . . . . . . . . . . . . 42.2 Distribuição complementar cumulativa de grau da rede da 2.1. . . . . 7

3.1 Dados bibliográficos de uma patente contida em uma rpi. . . . . . . . 183.2 Gráfico do número de patentes pelo número de inventores das insti-

tuições com mais patentes em escala log-log. . . . . . . . . . . . . . . 203.3 CCDF da produção de patentes por inventor e por instituição. . . . . 21

4.1 CCDF da distribuição de Grau da Rede de Colaboração entre Insti-tuições. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.2 Distribuição das componentes conexas da rede de colaboração entreinstituições. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.3 Ranqueamento dos vértices da rede. . . . . . . . . . . . . . . . . . . . 26

5.1 Rede de colaboração entre instituições. . . . . . . . . . . . . . . . . . 315.2 Rede de colaboração entre instituições entre os anos 2010 e 2015. . . 32

h

Lista de Tabelas

2.1 Homofilia da rede de colaboração entre pesquisadores. . . . . . . . . . 14

4.1 Homofilia da rede de colaboração entre instituições. . . . . . . . . . . 274.2 Homofilia do peso das arestas da rede de colaboração entre instituições. 28

i

Capítulo 1

Introdução

Ao longo dos anos, redes tem sido utilizadas para modelar e estudar problemas

de inúmeras áreas, principalmente devido a sua capacidade de generalização. Redes

são abstrações que codificam relacionamentos entre pares de objetos, dando origem

a diversos tipos de redes, tais como rede de colaboração, redes de energia, redes de

neurônios, entre outras. Bases de dados de patentes têm sido usadas para dar origem

a alguns tipos de redes, como: redes de citações entre patentes, redes de coautoria

de patentes e redes de colaboração entre instituições.

Este trabalho visa construir e analisar a rede de patentes entre instituições de-

positantes de patentes no Brasil. Os dados foram coletados a partir das revistas de

propriedade industrial, publicadas semanalmente pelo INPI (Instituto Nacional de

Propriedade Intelectual), onde é possível obter os dados bibliográficos das patentes

depositadas no brasil. Desta maneira, foi possível construir a rede de colaboração

entre depositantes de patentes, onde os vértices são depositantes e as arestas indi-

cam que dois vértices depositaram ao menos uma patente em conjunto. Além disso,

os vértices foram rotulados, manualmente, em públicos e privados.

Neste trabalho, são analisadas algumas características da rede como distribuição

de grau, componentes conexas, vértices mais centrais e homofilia. Além disso, foi

construída uma ferramenta web para visualização dos dados e da rede.

O restante deste trabalho esta organizado da seguinte forma. No capítulo 2 são

abordados alguns conceitos importantes relacionados a redes, tais como distribuição

1

de grau, centralidade e homofilia. O capítulo 3 apresenta os dados das patentes

brasileiras e algumas estatísticas elementares. O capítulo 4 aborda a construção e

análise da rede de colaboração entre depositantes de patentes. O capítulo 5 discorre

sobre o desenvolvimento do software para construção e análise da rede de patentes,

assim como o desenvolvimento de uma ferramenta web para visualização dos dados

e da rede. Por fim, no Capítulo 6 é feito um apanhado geral sobre os resultados

apresentados ao longo deste trabalho.

2

Capítulo 2

Redes

Nas últimas décadas, o interesse por estudar e compreender diferentes aspectos de

redes tem aumentado em diversas áreas. Apesar das atividades recentes, em 1736 o

matemático Leonhard Euler propôs um modelo de redes (na verdade, um grafo) para

representar e posteriormente resolver o problema das pontes de Königsberg. Sendo

este momento, considerado o surgimento da teoria dos grafos, área empenhada em

resolver problemas combinatoriais em grafos. No entanto, o interesse por redes saiu

da área teórica para as mais diversas aplicações e hoje em dia é possível ver desde

sociólogos a médicos estudando redes.

Mas o que são redes, afinal? De forma geral, redes são um conjunto de objetos

relacionados par-a-par. Os objetos, chamados de nós ou vértices, podem ser de

qualquer natureza, desde pessoas, artigos científicos e proteínas. Enquanto que os

relacionamentos, chamados de arestas, podem representar qualquer relação entre

pares de vértices, seja física ou abstrata. Considere a rede de amizade de uma

pequena cidade. Nesta rede, os vértices são as pessoas, enquanto que as arestas

codificam o relacionamento de amizade entre duas pessoas. Para construir a rede,

precisamos saber quem são os vértices e quais são as arestas. Por exemplo, os

vértices são todas as pessoas que moram na cidade, e para conhecer as arestas,

basta perguntar para cada pessoa quem são os seus amigos. Assim, se Pedro diz que

é amigo de João, teremos uma aresta entre Pedro e João, mas se ele diz que não é

amigo de Carlos, então não teremos uma aresta entre eles. A figura 2.1 ilustra uma

3

Figura 2.1: Rede de amizade entre um grupo de pessoas.

rede de amizade entre um grupo de pessoas.

Construir uma rede, principalmente quando ela é grande, sempre foi um grande

desafio. Construir a rede de amizade entre pessoas de uma pequena cidade é um

desafio que pode ser superado, mas imagine construir a rede de amizade de uma

cidade com milhões de habitantes, como o Rio de Janeiro. Certamente não seria

viável construir essa rede perguntando para cada pessoa quem são os seus amigos.

Em virtude da evolução tecnológica e principalmente da internet, construir redes

desta proporção tornou-se um desafio possível. Hoje, é possível utilizar uma rede

social online, como o Facebook, para identificar a rede de amizade de entre um

enorme número de pessoas (existem mais de 1.2 bilhão de usuários no Facebook).

Rede sociais, muitas vezes, são objeto de estudo de sociólogos que tentam entender

o comportamento humano. Por exemplo, como boatos se propagam ou quais as

pessoas mais influentes da rede.

Uma rede bem conhecida, e que tornou-se objeto de estudo em muitas áreas, é

4

a World Wide Web, mais conhecida como WWW. Nesta rede, os nós são as páginas

web e as arestas codificam a possibilidade de navegar de uma página para outra, ou

seja, se existe um hiperlink de uma página para outra. Foi utilizando esta rede que

a empresa Google criou um algoritmo de ranqueamento de páginas web (conhecido

como PageRank) que é utilizado em seu site de buscas.

Além desses exemplos, redes, como ferramente de modelagem entre objetos e seus

relacionamento, tem sido usado em inúmeras áreas, dando origem as mais diversas

redes, tais como: redes de energia, redes de neurônios, redes de patentes e muitas

outras. Mas o que torna redes tão especial, sobretudo para áreas tão distintas? Redes

são abstrações utilizadas para modelar um problema real, desta forma, podem ser

aplicadas em problemas de diversas áreas.

Estudar e compreender redes envolve tanto aspectos da estrutura das rede como

os fenômenos que ocorrem sobre as elas. E para entender como fenômenos comportam-

se nas redes, é preciso caracterizar a estrutura de uma rede. Por exemplo, como

uma epidemia se espalha em uma rede? Existe alguma propriedade estrutural que

contribua significativamente para a propagação da epidemia? Uma falha na rede

de transmissão de energia pode gerar um apagão em uma cidade, ou um estado?

Por isso, estudar a estrutura das redes nos ajuda a entender fenômenos como estes

porque a estrutura influencia diretamente processos que operam sobre as redes.

2.1 Caracterizando Redes

Antes de apresentar as características de uma rede, é necessário defini-la for-

malmente. Como dito anteriormente, redes são um conjunto de objetos relaciona-

dos par-a-par. Assim sendo, pode-se definir dois conjuntos. Primeiro, o conjunto

dos vértices V = {v0, v1, v2, ..., vn−1}, que representam os objetos da rede, sendo

o número de vértices dado por n = |V |. O segundo conjunto são as arestas, que

representam a existência de relacionamentos entre dois vértices, será denotado por

E = {e0, e1, e2, ..., em−1}. A aresta ek = (i, j) representa a existência do relaciona-

mento entre o par (i, j). Não será abordado o caso em que os relacionamentos são

5

assimétricos, ou seja, quando (i, j) 6= (j, i). O número de arestas deste conjunto

é dado por m = |E|. Assim sendo, podemos definir nossa rede, ou grafo, como é

comumente conhecido, como G = (V,E).

Um grafo com n vértices pode ter no mínimo 0 arestas ou no máximo n(n−1)/2

arestas, onde cada vértice está conectado com todos os outros vértices da rede. Com

esses conhecimentos, é possível definir a densidade da rede, dada por:

ρ =m

n(n− 1)/2(2.1)

A equação 2.1 representa a fração de arestas presentes na rede. No caso da

rede 2.1, n = 17, m = 25 e sua densidade é ρ = 0.18, que é uma densidade baixa e

portanto a rede 2.1 pode ser considerada esparsa. Redes reais, tais como do Facebook

e WWW, costumam apresentar uma densidade muito baixa.

2.1.1 Distribuição de Grau

Em uma rede, um vértice vk pode ter de 0 a n− 1 arestas. O número de arestas

do vértice vk é conhecido como grau. Observe a rede figura 2.1, o vértice J tem grau

7, já o vértice F tem grau 5. Conhecido o grau de um vértice, é possível determinar

o grau médio de uma rede, que é dado pela média aritmética dos graus dos vértices

que formam a rede, matematicamente:

d̄ =1

n

∑i∈V

di =2m

n(2.2)

Assim, o grau médio da rede da figura 2.1, é d̄ = 2.94.

Neste momento, é possível definir uma característica importante pertencente a

qualquer rede, sua distribuição de grau. A distribuição de grau é a fração de vértices

da rede que possui um determinado grau. Dado uma rede G = (V,E), considere nk

o número de vértices com k arestas, ou grau igual a k. A fração de vértices da rede

com grau igual a k é:

fk =nkn, k = 0, 1, ..., n− 1 (2.3)

6

Figura 2.2: Distribuição complementar cumulativa de grau da rede da 2.1.

A equação também 2.3 representa a probabilidade de um vértice v que tenha grau

igual a k ser escolhido ao acaso e de forma uniforme. Definida esta equação, é possível

visualizar graficamente a distribuição de grau de uma rede. No entanto, para a

visualização da distribuição de grau neste trabalho, estaremos mais interessados na

distribuição complementar cumulativa (CCDF) do grau, isto é, na fração de vértices

da rede que possui k ou mais arestas. Formalmente:

Fk = 1−k−1∑i=0

fi (2.4)

A figura 2.2 apresenta a CCDF da distribuição de grau da rede 2.1.

O gráfico 2.2 apresenta a fração dos vértices que possuem grau maior ou igual

a k. Por exemplo, em torno de 80% dos vértices possuem grau maior ou igual a

2 (P [D >= 2] ≈ 0.8), enquanto que apenas aproximadamente 20% possuem grau

maior ou igual a 5, (P [D >= 5] ≈ 0.2).

7

2.1.2 Distâncias e Small World

Uma outra característica importante de redes são seus caminhos e distâncias

entres os vértices. Imagine uma rede com 5 cidades e as arestas sendo as estradas

que ligam as cidades. Existe um caminho entre a cidade A e B, se for possível sair

de A e chegar em B. Deste modo, podemos definir caminho como uma sequência

de vértices em que exista uma aresta entre os vértices adjacentes, sendo que não é

possível ter vértices repetidos em um caminho. Considere a rede 2.1, existe uma

caminho entre os vértices E e M? Para o caminho existir, deve ser possível sair do

vértice E e chegar ao vértice M, passando por arestas. Neste caso, existe mais de um

caminho, e um dos possíveis é CE,M = {E,F,H, J,M}. Além de conhecer o caminho

entre dois vértices, pode-se definir o comprimento do caminho, que é o número de

arestas presentes no caminho. No caso, o comprimento do caminho entre os vértices

E e M é 4.

Observe a rede da figura 2.1, pode existir mais de um caminho entre dois vér-

tices, e possivelmente com comprimentos distintos. Por isso, o comprimento do

menor caminho entre dois vértices é chamado de distância. É possível existir mais

de um caminho com este comprimento. Agora, podemos definir uma importante

propriedade estrutural da rede, a sua distância média:

l̄ =

∑i,j∈V l(i, j)(

n2

) , (2.5)

onde l(i, j) é a distância entre os vértices i e j. A distância média da rede da

figura 2.1 é l̄ = 1.11.

Com base na definição de distância média, podemos definir o diâmetro da rede,

que é a maior distância entre qualquer par de vértices da rede. Assim, o diâmetro

L de uma rede é:

L = maxi,j∈V

l(i, j) (2.6)

O diâmetro da rede 2.1 é 3, sendo o comprimento do caminho entre os vértices

8

E e Q.

Estas definições são importantes por causa de um fenômeno conhecido como

Small-World. Este fenômeno esta presente em redes cuja distância média é muito

menor do que o tamanho da rede. Por exemplo, uma parte do grafo da WWW com

108 vértices possui distância média de 7.5. Enquanto que uma parte da rede do

Facebook com então 109 vértices possui distância média de 4.5. O Small World é

importante porque influencia diretamente na ocorrência de diversos eventos na rede,

tal como propagação de uma epidemia na rede. Claramente ela irá se espalhar mais

rapidamente em redes cuja distância média for pequena.

2.1.3 Componentes Conexas

Uma rede é dita conexa quando existe caminho entre todos os pares de vértices.

Por exemplo, a rede da figura 2.1 não é conexa pois não existe caminho entre os

vértices B e O, ou J e A, por exemplo. Embora a rede 2.1 não seja conexa, ela

possui duas componentes conexas. Componente conexa C1 = {A,B,C,D,K} e

componente conexa C2 = {E,F,G,H, I, J, L,M,N,O, P,Q}. Algumas redes reais

possuem um componente conexa gigante, contento geralmente mais de 80% dos

vértices.

Além de uma rede ser conexa, ela também pode ser um clique. Clique é quando

uma rede ou subrede que tem densidade ρ = 1, ou seja, existe uma aresta entre

todos os pares de vértices da rede. A rede da figura 2.1 não é um clique, mas possui

algumas subredes que são um clique, por exemplo, os vértices H, F, E, O formam

um clique.

2.1.4 Redes Livres de Escala

Redes livre de escala são redes que possuem distribuição de grau como lei de

potência. Lei de potência é um modelo matemático que apresenta a seguinte forma:

pX(x) ∝ kx−α, (2.7)

9

sendo o parâmetro α o expoente da lei de potência.

Distribuição de grau foi uma das primeiras características de redes a ser estu-

dada. Os cientistas esperavam encontrar nas redes reais distribuições de grau com

valores muito próximos ao grau médio. Mas, na maioria dos casos, eles encontraram

distribuições de grau que seguem lei de potência, com α assumindo valores entre 2

e 3.

Uma distribuição que segue lei de potência decresce muito devagar, gerando

valores, probabilidades não desprezíveis, muito distante do grau médio. Portanto,

uma distribuição em lei de potência possui o que chamamos de cauda pesada.

Vale ressaltar que ao aplicar a escala log-log a uma distribuição com lei de potên-

cia, o gráfico obtido é uma reta, evidenciando o fenômeno de cauda pesada dessas

distribuições. Isso pode ser observado a partir da definição da equação 2.7 depois

de aplicarmos o logaritmo:

log pX(x) ∼ −α log x+ log k (2.8)

Distribuições que seguem lei potência recebem o nome de distribuições livre

de escala, porque uma função que segue uma lei de potência tem a propriedade

de manter a forma em qualquer escala. Uma rede é livre de escala quando sua

distribuição de grau seguir um lei de potência.

2.1.5 Centralidade

No estudo de redes, podem ser feitas perguntas tais como, quais os vértices mais

importantes da rede? Ou, quais as arestas mais importantes?. Essa é uma questão

que tem papel central em muitos estudos. Considere a rede da World Wide Web,

qual é a página web mais importante? Ou no assunto política, qual é a página

mais influente? Para responder perguntas como estas, é preciso definir métricas que

nos ajude ranquear os vértices, ou as arestas, de acordo com alguma característica.

Desta forma, muitas métricas foram propostas ao longo do anos, algumas das quais,

10

são abordadas neste trabalho.

Grau

O grau de um vértice é a medida mais simples para calcular a centralidade em

uma rede. O grau, como vimos, é o número de arestas que um vértice possui, assim,

nesta métrica, vértices com os maiores graus são os mais importantes da rede. Por

exemplo, na figura 2.1, os vértices mais centrais são J, H, F, com graus 7, 6, 5,

respectivamente.

Esta métrica, apesar de simples, pode ser interessante para algumas redes e

fenômenos. Imagine uma rede de amizade, vértices com os maiores graus são as

pessoas com mais relacionamentos na rede. É intuitivo pensar que por terem um

grau alto, elas sejam as pessoas mais influentes da rede. Ao mesmo tempo, em uma

epidemia na rede, vértices com graus altos tem um papel muito importante em sua

propagação, já que podem infectar diretamente muito mais pessoas.

PageRank

Vimos que vértices com graus altos podem ser considerados importantes na rede,

mas em alguns casos, a importância de um vértice não depende apenas da quantidade

de arestas que ele possui. Imagine dois vértices com grau 20, pode-se dizer que eles

são igualmente importantes somente porque possuem o mesmo grau? Por esta razão,

foram criadas métricas que não se baseiam somente no número de arestas de um

vértice, mas também na importância do vértice que está do outro lado da aresta.

A ideia é atribuir a cada vértice uma importância que depende da importância

dos seus vizinhos. Assim, se um vértice é vizinho de muitos vértices, mas que pos-

suem uma importância pequena, este não terá uma grande importância. Entretanto,

um vértice com apenas uma aresta pode ter uma grande importância, desde que seu

vizinho seja um vértice muito importante.

Para ilustrar essa métrica, considere novamente a rede de páginas Web. A rede

WWW é construída a partir dos hiperlinks presentes nas páginas. Assim, quando

11

uma página web cita outra, ou seja, existe um hiperlink na primeira para a segunda,

é traçado uma aresta que aponta da primeira página para a segunda. Desta maneira,

páginas que possuem muitos hiperlinks tendem a ser mais importantes, mas uma pá-

gina com poucos hiperlinks pode ser importante se for apontada por outras páginas

importantes. Vale ressaltar que a influência que um vértice exerce em seus vizinhos é

inversamente proporcional ao seu grau. Assim, um vértice que é apontado por outro

muito importante pode receber uma baixa importância se este último também citar

muitas outras páginas. Matematicamente, a métrica de PageRank pode ser definida

como:

ci = α∑j

Aijcjdoutj

+ β, (2.9)

onde cj é a importância do vértice j.

Para os casos em que os vértices tenham grau de saída douti = 0, fixa-se douti = 1

para que o primeiro termo não seja indefinido. Aij é o elemento i, j da matriz de

adjacência e representa a existência de uma aresta de i para j. Já o β, atribui

uma importância inerente ao vértice, portanto, vértices com dini = 0 ainda exercerão

influência nos vértices que eles apontam.

Closeness

A centralidade de closeness utiliza distâncias para atribuir importância aos vér-

tices da rede. A centralidade de closeness mede a distância média entre o vértice i

e todos os outros vértices da rede. Formalmente:

Cj =1

n− 1

∑i( 6=j)

lij; (2.10)

onde li,j é a distância entre o vértice e i e o vértice j.

Diferentemente das outras métricas de centralidade, os vértices mais centrais

recebem os menores valores. Esta métrica tenta capturar o quão rápido uma in-

formação pode se propagar por uma rede. Imagine um vértice com uma distância

12

média pequena, isso significa que ele está bem próximo de todos os vértices da rede.

Com isso, ele teria mais facilidade de disseminar uma informação pela rede, por

exemplo.

Betweenness

A centralidade de betweenness utiliza os caminhos entre vértices para aferir im-

portância a um vértice. Considere o vértice v, e todos os caminhos mínimos entre

os pares de vértices (i, j), a centralidade de betweenness do vértice v é:

bv =∑

i,j∈V ;i,j 6=u

σv(i, j)

σ(i, j), (2.11)

onde σv(i, j) é o caminho mínimo entre o vértice (i, j) que passa pelo vértice v.

Portanto, os vértices mais centrais desta métrica são aqueles presentes em mais

caminhos mínimos entre pares de vértices.

2.1.6 Homofilia

Em certas redes, os vértices podem ser classificados em diferentes tipos. Con-

sidere a rede da figura 2.1, os vértices estão classificados em duas classes, C1 =

{B,C, J,K, L,M,N, P,Q} e C2 = {A,D,E, F,G,H, I, O}. É possível ver uma forte

tendência de existir arestas entre vértices da mesma classe. Este fenômeno, chamado

de homofilia, é a tendência de pessoas com características similares relacionarem-se

entre si.

Uma maneira de medir homofilia em uma rede é calcular a fração de arestas do

tipo i pelo total de arestas da rede. Estas duas classes geram três tipos diferentes

de arestas, EC1 = {(i, j)|i, j ∈ C1}, EC2 = {(i, j)|i, j ∈ Vf} e ED = {(i, j)|i, j

pertencem a classes diferentes }. Sendo, |EC1| = 9, |EC2| = 12 e |ED| = 4, a tabela

2.1 apresenta a homofilia entre os vértices desta rede, sendo ai a fração de arestas

que incidem sobre vértices do tipo i assim como bj são as arestas que incidem sobre

vértices do tipo j.

13

C1 C2 aiC1 0.36 0.16 0.52C2 0.16 0.48 0.64bi 0.52 0.64

Tabela 2.1: Homofilia da rede de colaboração entre pesquisadores.

Observando a tabela 2.1, é possível notar que 84% das arestas possuem vértices

da mesma classe, enquanto que apenas 16% das arestas possuem vértices de classes

diferentes, o que indica que a rede tem uma homofilia forte entre vértices da mesma

classe.

A partir da tabela 2.1, é possível calcular o coeficiente de assortatividade da rede

que verifica se existe uma tendência de haver arestas com vértices do mesmo tipo

ou se as arestas se formam de maneira aleatória [3]. Matematicamente:

r =

∑i eii −

∑i aibi

1−∑

i aibi, (2.12)

onde∑

i aibi é o valor esperado da aresta eii se fosse gerada de maneira aleatória.

O valor de r é necessariamente menor ou igual a 1, onde r = 0 significa que existe

apenas arestas entre vértices do mesmo tipo, r = 0, significa que os relacionamentos

foram gerados de maneira aleatória, r < 0, significa que predominam arestas entre

vértices de tipos diferentes. No caso da rede da figura 2.1, r = 0.5, indicando um

forte relacionamento entre vértices do mesmo tipo.

14

Capítulo 3

Patentes e Redes de Colaboração

No capítulo anterior, foram apresentadas alguns tipos de redes, desde redes tec-

nológicas até redes sociais. Neste capítulo é abordado um tipo específico de rede,

mais precisamente, a rede de colaboração na produção de patentes. Redes de cola-

boração tem sido objeto de estudo em diversas pesquisas [4], muitas das quais estão

focadas na rede de colaboração científica onde vértices são pesquisadores e arestas

denotam coautoria de artigos científicos[4, 6].

Patente é um meio de apresentar um novo conhecimento e garantir a uma pessoa

ou empresa, os direitos comercias sobre uma determinada tecnologia ou conheci-

mento. Praticamente todos os países possuem um banco de patentes, muitos dos

quais estão disponíveis na Web. No Brasil, o órgão responsável por manter as pa-

tentes depositadas no país é o INPI, Instituto Nacional de Propriedade Intelectual.

Uma base de dados referente a patentes possui muitas informações sobre pro-

dução tecnológica, inovações, inventores, depositantes e e outras informações. Por

exemplo, uma patente pode ter um ou mais inventores, um ou mais depositantes,

que no caso podem ser as empresas que possuem direto comercial sobre a patentes.

Patentes também são classificadas em áreas, além de possuir data de publicação. A

partir destes dados é possível gerar diferentes tipos de redes, algumas das quais são

abordadas a seguir.

15

3.1 Tipos de Redes

3.1.1 Redes de Colaboração

Uma patente muitas vezes é o resultado de uma colaboração entre mais de uma

pessoa e até mesmo mais de uma empresa. Este fenômeno de colaboração da origem

a dois tipos de redes:

Redes de Coautoria

Uma patente pode ter mais de um inventor, o que garante crédito científico e

financeiro a todos os inventores. A partir destas informações, é possível criar uma

rede de coautoria de patentes [8]. Nesta rede, os vértices são inventores, e as arestas

indicam que eles produziram uma ou mais patentes em conjunto. Repare que nesta

rede, uma patente gera um clique com todos os seus inventores.

Redes de Colaboração entre Instituições

Uma patente, além de inventores também possui depositantes. Estes depositan-

tes podem ser os próprios inventores, no caso de inventores independentes. Mas na

maioria das vezes, os depositantes são as instituições nas quais os inventores tra-

balham. Neste trabalho, as instituições são divididas em dois grupos: instituições

públicas e instituições privadas.

Assim como inventores, algumas patentes possuem mais de um depositante,

dando origem a uma rede de colaboração entre instituições. Assim, os vértices são

instituições e arestas entre dois vértices indicam que estes depositam uma patente

em conjunto. Uma patente, assim como no caso anterior, gera um clique com todos

os seus depositantes.

16

3.1.2 Rede de Citação de Patentes

Uma patente quando produzida, geralmente cita outras patentes já existentes.

Desta maneira, é possível criar uma rede semelhante a rede daWorld Wide Web, onde

os vértices são as próprias patentes, e as arestas são as citações entre as patentes.

Esta rede é conhecida por Rede de citação entre patentes [1].

Os vértices não são a única diferença entre essa e as duas redes anteriores. Nesta

rede, as arestas são direcionadas, apontando do vértice que citou para o vértice

citado. É importante notar que essa rede tem uma dependência temporal, ou seja,

patentes citam necessariamente patentes anteriores.

A rede de citações de patentes americanas é um exemplo deste tipo de rede. Ela

é resultado de um projeto mantido pelo NBER, que contém patentes publicadas

entre Janeiro de 1963 e Dezembro de 1999.

3.2 Trabalhos Similares

Existem alguns trabalhos na literatura que estudam patentes e as redes que

podem ser geradas a partir delas. Yoo-Jin Han e Yongtae Park propuseram métodos

para medir o fluxo do conhecimento inter indústria [9].

Olhando mais atentamente, uma rede de citações de patentes é uma rede em

evolução, onde é possível aferir o processo de evolução tecnológico. Existem métri-

cas que tentam prever o surgimento de novas tecnologias baseado nas citações das

patentes [7].

Um estudo utilizando a rede de citação de patentes propõe uma métrica para

determinar a probabilidade de uma patente ser citada por outras, chamada de função

de atratividade [2].

17

Figura 3.1: Dados bibliográficos de uma patente contida em uma rpi.

3.3 Patentes Brasileiras

Foram apresentadas alguns tipos de redes que podem ser criadas a partir de uma

base de patentes. Neste trabalho, foi utilizado a base de patentes brasileira para

criar e estudar a rede de colaboração entre instituições. Esta seção aborda algumas

estatísticas da base de patentes sem considerar a rede. Detalhes sobre a rede de

colaboração entre instituições são abordados no próximo capítulo.

3.3.1 Dados

As patentes brasileiras são mantidas pelo Instituto Nacional de Propriedade In-

telectual (INPI) que publica, semanalmente, uma revista da propriedade industrial,

onde é possível acompanhar o andamento dos pedidos de patentes depositados no

Brasil. No entanto, as patentes disponíveis publicamente não estão em um formato

que possa ser lido facilmente por um software. Todas as patentes são publicadas

com seus respectivos dados bibliográficos, onde cada dado bibliográfico, como in-

ventor, possui uma chave de identificação, por exemplo, a chave (72) indica o nome

do inventor. Por isso, foi necessário criar um software capaz de ler e analisar as

revistas, extraindo os dados bibliográficos de cada patente. A figura 3.1 mostra os

dados bibliográficos de uma patente contida em uma RPI.

Uma patente possui diversos dados bibliográficos, sendo os mais relevantes para

este trabalho: número do pedido, data do depósito, dados da prioridade unionista,

nome do depositante e nome do inventor. Uma patente pode aparecer mais de uma

vez nas RPI (revistas de propriedade industrial), por isso foi necessário guardar o

número do pedido, para não contabilizar a mesma patente mais de uma vez. Os

18

dados de prioridade unionista contém o país de origem da patente, o que permitiu

considerar apenas patentes produzidas por instituições brasileiras e desconsiderar

patentes produzidas em outros países. Entretanto, os dados de depositantes foram

importantes para gerar a rede de instituições.

3.3.2 Estatísticas

Patentes e Inventores

A partir dos dados bibliográficos de uma patente, é possível obter o número de

patentes e o número de inventores de cada instituição presente na base de patentes.

Com isso, pode-se visualizar a proporção de inventores por patentes de cada insti-

tuição e verificar se essa proporção depende da instituição ser privada ou pública,

com fins acadêmicos. Para tal, seja P = {p1, p2, .., ps} o conjunto de patentes da

base de dados, ti o número de inventores da instituição i e ni o número de patentes

da instituição i, então ti é:

ti =s∑j=1

1(i ∈ Dj)|Vj|, (3.1)

onde Dj é o conjunto de depositantes da patente j e Vj é o conjunto de inventores da

patente j. E 1 é a função indicadora, que vale 1 quando o argumento é verdadeiro

e 0 caso contrário.

Além disso, o número total de patentes da instituição i:

ci =s∑j=1

1(i ∈ Dj) (3.2)

Assim, figura 3.2 apresenta o gráfico de ci por ti das 150 instituições com mais

patentes, considerando apenas instituições que depositaram ao menos 10 patentes.

Cada ponto corresponde a uma instituição e note que as instituições estão dividi-

das em dois grupos: o círculo verde representa as instituições públicas e o X azul

representa as instituições privadas. A linha vermelha representa a reta x = y

Observando com atenção o gráfico, que está em escala log-log, pode-se ver que

19

Figura 3.2: Gráfico do número de patentes pelo número de inventores das instituiçõescom mais patentes em escala log-log.

as instituições com mais inventores são públicas e as instituições com mais patentes

são privadas. Isso representa dois fenômenos que estão presentes nesses tipos de

instituições, competição e colaboração. Repare que a grande maioria das institui-

ções públicas estão perto da reta x = y, e algumas acima, o que significa, que tal

instituição tem mais inventores do que patentes, contribuindo para a hipótese de

colaboração na academia. Já no caso das instituições privadas, a grande maioria

esta bem abaixo da reta x = y, mostrando que uma instituição privada tende a ter

muitos mais patentes do que inventores, evidenciando a hipótese de competição.

Fração de Patentes por Inventores e por Instituições

Uma outra análise que pode ser feita da base de patentes é sobre a produção de

patentes por inventores comparando com a produção de patentes por instituições.

Seja o conjunto P = {p1, p2, .., ps} de patentes, o número de patentes ci produzidas

pela instituição i é dado pela equação 3.2, já o número de patentes do inventor i é:

20

Figura 3.3: CCDF da produção de patentes por inventor e por instituição.

ri =s∑j=1

1(i ∈ Vj), (3.3)

onde Vj é conjunto de inventores da patente j.

Assim, é possível ver no gráfico da figura 3.3 a fração de inventores com k ou mais

patentes (em verde) e a fração de instituições com k ou mais patentes (em azul).

Como era esperado, uma instituição produz muito mais patentes que um inventor,

já que as patentes depositadas por uma instituição são criadas por um conjunto de

inventores. Além disso, o tempo de vida das instituições supera o dos inventores, o

que explica a reta azul se distanciar da reta verde, apresentando uma cauda pesada.

Ainda assim, é possível notar que a distribuição de patentes por inventor possui uma

cauda pesada, com alguns inventores depositando mais de 100 patentes, enquanto a

média de patentes por inventor é de 1.42. Algumas instituições chegam a depositar

mais de 1000 patentes, enquanto a média é de 1.58 patentes por instituição.

21

Capítulo 4

Rede de Patentes Brasileira

O capítulo anterior apresentou estatísticas retiradas diretamente da base de pa-

tentes. Este capítulo apresenta a criação e análise da rede de patentes brasileira.

4.1 Construindo a Rede

A partir da base de dados, foi possível construir uma rede de colaboração entre

os depositantes das patentes. Nesta rede, vértices são depositantes e uma aresta

entre dois vértices indica que eles depositaram uma ou mais patentes em conjunto.

Seja P = {p1, p2, ..., ps} o conjunto de patentes da base de dados e Di, o conjunto

de depositantes da patente i. Assim, cada patente i adiciona a rede um clique com

c = |Di| vértices e c(c− 1)/2 arestas.

A cada aresta (i, j) é atribuído um peso que captura a intensidade do relacio-

namento entre os vértices i e j, aumentando a medida que o número de patentes

depositada em conjunto pelos vértice i e j aumenta. Além disso, o peso adicionado

a uma aresta é inversamente proporcional ao número de depositantes da patente.

Formalmente, o peso wij adicionado a aresta (i, j) por uma patentes é:

wij =1

ck − 1, (4.1)

onde ck é o número de depositantes da patente k, note que o valor mínimo de ck

22

é 2, pois uma aresta só existe se uma patente possui no mínimo dois depositantes.

Para classificar os vértices, os nomes dos depositantes foram analisados em busca

de palavras chaves que pudessem identificar a natureza das instituições. Desde modo,

depositantes com palavras chaves como "federal", "pública", "estadual", "militar",

entre outros, foram classificados como instituições públicas, enquanto depositantes

com palavras chaves como "ltda", "s.a.", "companhia", "corporation","s/a", entre

outros, foram classificados como instituições privadas. Por último, os depositantes

que não foram classificados como públicos nem privados, foram classificados como

outros. Ao final, os vértices foram classificados em três conjuntos: públicos, privados

e outros, que contém pessoas físicas e instituições públicas e privadas que não pu-

deram ser classificadas. Portanto, seja V = {v0, v1, ..., vn−1} o conjunto de vértices

da rede, então Vu = {v0, v1, ..., vh−1} é o conjunto de vértices da classe pública e

Vr = {v0, v1, ..., vr−1} o conjunto de vértices da classe privado.

4.2 Análise da Rede

A rede completa, com todos os vértices e arestas, possui um total de n = 102648

vértices e m = 21792 arestas, grau médio d̄ = 0.42 e densidade ρ = 4.13 × 10−6,

indicando ser muito esparsa e consequentemente que há muito pouca colaboração

entre instituições.

Desconsiderando o conjunto outros, o número de vértices da rede reduz para

n = 22316 e o número de arestas cai param = 1590. O grau médio da rede é d̄ = 0.14

e densidade ρ = 6.38× 10−6. A classe Vu possui 725 vértices correspondendo a 3.2%

do total de vértices, já a classe Vr possui 21591 vértices ou 96.8% dos vértices da

rede. Isso era esperado, já que produzir patentes não é uma das principais funções

das universidades.

Embora existam poucos vértices da classe público, eles são responsáveis pela

maioria das arestas da rede, já que 54% dos vértices públicos possuem pelo menos

uma aresta e apenas 5% dos vértices privados possuem arestas. Além disso, o

conjunto de vértices públicos possui grau médio d̄pub = 1.05, enquanto que o grau

23

Figura 4.1: CCDF da distribuição de Grau da Rede de Colaboração entre Institui-ções.

médio do conjunto de vértices privados é d̄priv = 0.038, indicando a tendência de

colaboração entre instituições acadêmicas.

4.2.1 Distribuição de Grau

O gráfico da figura 4.1 apresenta a CCDF (Complementary Cumulative Distri-

bution Function) da distribuição de grau da rede calculada para os três conjuntos

de vértices. O X em azul representa a distribuição de grau das instituições públicas,

os círculos verdes representam a distribuição de grau das instituições privadas e as

estrelas em vermelho representam a distribuição de grau dos vértices do conjunto

outros. Note que todas as três distribuições não possuem 100% dos vértices com

grau maior ou igual a 1, indicando que existem muitas com grau 0. Por exemplo,

mais de 90% das instituições privadas possuem grau zero, enquanto que em torno

de 60% das instituições públicas possuem grau diferente de zero.

24

Figura 4.2: Distribuição das componentes conexas da rede de colaboração entreinstituições.

É possível notar que a distribuição de grau das instituições públicas possui calda

pesada, se aproximando de uma lei de potência. A instituição pública com maior

grau tem em torno de 150 arestas, o que é mais de 100 vezes maior que o grau

médio. Portanto, é possível dizer que a rede de colaboração entre instituições é livre

de escala pelo menos na distribuição de grau das instituições públicas.

4.2.2 Componentes Conexas

A rede possui uma componente conexa com n = 676 e um m = 1057, e uma

densidade ρ = 4.6×10−3, que apesar de pequena é 1000 vezes maior que a densidade

total da rede. O número de vértices da maior componente conexa representa apenas

3% do total de vértice, sendo bem distante do que é encontrado em algumas redes

reais, cuja maior componente conexa possui, geralmente, mais de 80% dos vértices.

O gráfico da figura 4.2 apresenta a distribuição das componentes conexas da rede em

25

Figura 4.3: Ranqueamento dos vértices da rede.

escala log-log. Note que em torno 98% das componentes conexas possuem apenas

um vértice.

4.2.3 Centralidade

A tabela 4.3 apresenta o ranqueamento dos vértices de acordo com as métricas

de centralidade apresentadas no capítulo 2, onde cada instituição é representada

por uma cor. A coluna 1 da tabela 4.3 exibe os vértices com os maiores graus da

rede, ou seja, estes vértices são os que mais colaboram com instituições diferentes.

Além disso, é possível notar que 9 das 10 instituições são públicas, ilustrando o fenô-

meno de colaboração entre as instituições públicas e competição entre as instituições

privadas.

A coluna 2 da tabela 4.3 ranqueia os vértices pela soma dos pesos de suas arestas.

Esta métrica não captura a quantidade de relacionamentos do vértice mas sim a

intensidade dos relacionamentos. Repare que o terceiro vértice é uma instituição

privada, Mahle Metal leve s.a., mas o peso de suas arestas é proveniente de apenas

uma aresta que ela possui com sua matriz.

26

Público Privada aiPúblico 0.327 0.306 0.633Privada 0.306 0.366 0.672

bi 0.633 0.672

Tabela 4.1: Homofilia da rede de colaboração entre instituições.

Já a coluna 3 tabela 4.3 exibe os vértices ranqueados pela centralidade de close-

ness. O closeness mede a distância média entre o vértice i e todos os outros vértices

da rede. Repare que os valores de closeness das instituições são altos bem pareci-

dos. Isso ocorre porque cada patente depositada dá origem a um clique na rede,

diminuindo a distância entre os vértices.

A coluna 4 apresenta os vértices de acordo com seus valores de PageRank. No-

vamente, 9 dos 10 vértices são instituições públicas, indicando que a academia tem

forte influência na produção conjunta de patentes.

Por último, a coluna 5 apresenta os vértices ranqueados pelos seus valores de

betweenness, indicando aqueles presentes em mais caminhos mínimos entre pares

de vértices. Por fim, é possível notar que em todas as métricas de centralidade, as

instituições públicas dominam o ranqueamento no top 10.

4.2.4 Homofilia

Vértices com mesmas características tendem a colaborar entre si, por isso nesta

seção é calculado a homofilia entre as instituições públicas e as instituições privadas.

Homofilia pelo tipo das Arestas

Foi possível visualizar a homofilia da rede a partir dos tipos de arestas presentes

na rede. Existem três tipos de arestas na rede, E1 = {eij|i, j ∈ Vu}, E2 = {eij|i, j ∈

Vr} e E3 = {eij|Ci 6= Cj}. A partir desses conjuntos foi possível gerar a tabela 4.1.

É possível notar na tabela 4.1 que existe uma pequena tendência em vértices da

mesma classe depositarem patentes em conjunto, mas também existe uma fração

importante de arestas entre vértices de classes diferentes. Calculando o coeficiente

de assortatividade da rede, r = −1.07, que indica que na média a rede tende a ter

27

Público Privada aiPúblico 0.460 0.251 0.711Privada 0.251 0.288 0.539

bi 0.711 0.539

Tabela 4.2: Homofilia do peso das arestas da rede de colaboração entre instituições.

mais relacionamentos entre classes diferentes dos que intraclasses.

Homofilia pelo peso das Arestas

Como uma aresta (i, j) possui peso referente a intensidade do relacionamento

entre as instituições i e j, podemos montar uma tabela de homofilia levando em

consideração o peso das arestas. Assim, é levado em consideração a soma dos pesos

das arestas e não apenas a quantidade de arestas entre os tipos de vértices.

A tabela 4.2 apresenta os dados de homofilia a partir da soma dos pesos de cada

tipo de aresta. Pode-se notar que a homofilia entre vértices da classe pública aumen-

tou, enquanto que a homofilia entre vértices da classe privada diminui. O coeficiente

de assortatividade é r = −0.235, que é maior que o coeficiente de assortatividade

anterior, indicando que existe uma homofilia mais forte se for considerado o peso

das arestas. Ainda assim, prevalece o relacionamento entre instituições de classes

diferentes.

Intuitivamente, era esperado que houvesse muitos relacionamentos entre vértices

da mesma classe, mas calculando a homofilia e o coeficiente de assortatividade da

rede, foi possível observar uma grande interação entre vértices de classes distintas.

Como as instituições privadas tendem a competir, dificilmente elas depositam uma

patente em conjunto. Entretanto elas tendem a depositar com instituições públicas.

Por isso, existe um padrão forte de mixagem entre os vértices públicos e privados.

28

Capítulo 5

Software

Este capítulo apresenta uma descrição do software desenvolvido para criar e

analisar a rede de patentes entre instituições. O software foi totalmente desenvolvido

em python e para analisar a rede, foi utilizado um módulo de manipulação e análise

estatística de redes, chamado Graph-tool1. E para o desenvolvimento do portal web

foi utilizado o framework web Django2.

O software possui dois grandes módulos, divididos em submódulos. O primeiro

módulo foi desenvolvido para construir e analisar a rede. O segundo é um portal

web para visualização dos resultados.

5.1 Criação e Análise da Rede

Este módulo é responsável por analisar a base de patentes brasileira, disponível

publicamente nas revistas de propriedade industrial, obter estatísticas sobre a base

de dados e por fim, construir e analisar a rede de colaboração entre instituições.

5.1.1 Parser

A base de patentes utilizada neste trabalho foram as revistas de propriedade

industrial, publicadas semanalmente pelo INPI3. Este módulo é responsável por1https://graph-tool.skewed.de/2https://www.djangoproject.com/3http://revistas.inpi.gov.br/rpi/

29

analisar estas revistas extraindo suas patentes.

Uma patente é um conjunto de até 21 dados bibliográficos, sendo o número do

pedido da patente o seu identificador. Estes dados são identificados por uma chave,

por exemplo, o número do pedido da patente recebe o identificador 21, a data do

depósito, 22 e assim por diante. Assim, os dados bibliográficos de uma patente são

dispostos em sequência nas RPI.

Este módulo do software analisa cada linha das RPI, e quando encontra um

código 21, armazena todos os dados até o próximo código 21. Assim, cada patente

é extraída e armazenada em um dicionário, uma estrutura chave-valor em python

semelhante ao padrão JSON (JavaScript Object Notation). Além disso, as patentes

são agrupadas de acordo com seus anos de depósito, sendo criado um arquivo para

cada ano que houve publicação de patentes. Ao final, o módulo gera n arquivos,

cada um contento um array JSON, onde n é a quantidade de anos que teve pelo

menos uma patente publicada.

5.1.2 Gerador de Estatísticas

As estatísticas exibidas no capítulo 3 foram geradas a partir deste módulo. Para

tal, ele recebe como entrada os arquivos JSON gerados pelo parser e gera três

arquivos. O primeiro contém os nome de cada inventor e a quantidade de patentes

criadas por eles. O segundo possui os nomes das instituições com suas respectivas

quantidades de patentes depositadas. Por último, o terceiro arquivo contém o nome

da instituição, sua quantidade de patentes, seu número de inventores e sua classe.

A instituição pode ser classificada em pública ou privada.

Os dois primeiros arquivos são usados para gerar a CCDF da fração de patentes

produzidas por inventores e por instituições. Já o último arquivo contém apenas as

150 instituições com mais patentes depositadas e foi usado para gerar o gráfico da

figura 3.2.

30

Figura 5.1: Rede de colaboração entre instituições.

5.1.3 Gerador da Rede

Este módulo é responsável por construir a rede utilizando os dados gerados pelo

parser. Como o parser gera um arquivo JSON para cada ano, este módulo é capaz

de gerar uma rede para cada ano, ou uma rede para um intervalo de anos. Assim,

ele recebe como entrada um ou mais array JSON que contém as patentes e gera ao

final a rede em formato xml.

5.1.4 Análise da Rede

Este módulo recebe como entrada a rede de instituições em formato xml, gerada

pelo módulo anterior. Ele utiliza o módulo graph-tool para manipular e analisar a

rede, extraindo as estatísticas apresentadas no capítulo 4.

Como a rede possui três conjuntos de vértices, é possível criar uma sub-rede

31

Figura 5.2: Rede de colaboração entre instituições entre os anos 2010 e 2015.

contendo apenas os conjuntos de vértices desejados.

5.2 Portal Web

Um portal web foi desenvolvido para apresentar os resultados para o usuário.

Foi utilizado duas bibliotecas javascript para apresentação gráfica dos resultados,

D3.js4 e amCharts5. A comunicação entre o servidor e a aplicação cliente é feita

utilizando JSON. As estatísticas são geradas em tempo real e um cache é utilizado

para armazenar os resultados, a fim de obter os dados de maneira mais rápida.

A figura 5.1 mostra a rede de colaboração entre instituições, sendo as instituições4https://d3js.org/5https://www.amcharts.com/

32

públicas, os vértices azul claro, e as instituições privadas, os vértices azul escuro.

Note que a espessura de uma aresta reflete o seu peso.

5.2.1 Intervalo de tempo

A rede de colaboração entre instituições é uma rede em evolução, pois a cada

ano novas patentes são depositadas. Por isso, esta funcionalidade foi desenvolvida

para permitir ao usuário escolher o intervalo de anos de análise da rede. A figura

5.2 apresenta a rede entre os anos 2010 e 2015.

5.2.2 Atualização da Rede

O software permite a atualização da rede a medida que novas patentes são de-

positadas. Para tal, é necessário fazer o upload de uma RPI no portal web. Depois

que a RPI é carregada no servidor, o parser extrai as patentes e salva cada uma no

arquivo correspondente ao seu ano de deposito.

33

Capítulo 6

Conclusão

Analisando os resultados, é possível concluir que o fenômeno de competição pre-

domina na rede de colaboração entre instituições depositantes de patentes dando

origem a redes muito esparsas. A competição prevalece porque a maioria dos vérti-

ces da rede são empresas privadas ou inventores, onde a concorrência é primordial.

No entanto, considerando somente os vértices públicos, é possível ver um fenômeno

forte de colaboração, pois 54% dos vértices públicos possuem arestas.

A rede apresenta uma forte interação entre vértices de classes diferentes, evi-

denciando o fenômeno de competição entre vértices privados e a colaboração entre

instituições públicas e privadas. Além disso, as instituições públicas dominaram o

ranqueamento dos vértices devido ao seus graus e os pesos de suas arestas. Por

fim, o portal web foi importante para analisar e visualizar em tempo real todas as

estatísticas da rede, sendo possível escolher o intervalo de tempo da análise.

6.1 Trabalhos Futuros

Este trabalho mediu a homofilia da rede separando os vértices em públicos e

privados. Uma outra maneira de agrupar os vértices seria de acordo com a área

de atuação da instituição, sem levar em consideração se ela é pública ou privada.

Assim, seria possível verificar se instituições da mesma área tendem a colaborar.

Uma outra maneira de analisar a base de patentes brasileira, seria criar a rede

34

de coautoria de patentes. Nesta rede os vértices são inventores e as arestas entre

dois vértices indicam que eles são coautores da patente. Isto permitiria analisar a

rede de pessoas e avaliar padrões de colaboração na produção de patentes.

35

Referências Bibliográficas

[1] BRANTLE, T., FALLAH, H., 2007, “Complex Innovation Networks, Patent Ci-tations and Power Laws”, Portland International Center, pp. 540–549.

[2] CSÁRDI, G., 2005, “Modeling innovation by a kinetic description of the patentcitation system”, Elsevier.

[3] NEWMAN, M., 2003, “Mixing patterns in networks”, Phys. Rev. E 67, 026126.

[4] NEWMAN, M., 2004, “Who is the best connected scientist?A study of scientificcoauthorship networks”, pp. 337–370.

[5] NEWMAN, M., 2010, “Networks: an introduction”. pp. 185–193, Oxford Univer-sity Press.

[6] NEWMAN, M., 2004, “Coauthorship networks and patterns of scientific colla-boration”, PNAS, v. 101 (Abril), pp. 5200–5205.

[7] ÉRDI, P., MAKOVI, K., SOMOGYVÁRI, Z., et al., 2012, “Prediction ofEmerging Technologies Based on Analysis of the U.S. Patent CitationNetwork"”, Scientometrics, pp. 225–242.

[8] STEFANO, BRESCHI, C. C., 2010, “Tracing the links between science and te-chnology: An exploratory analysis of scientists’ and inventors’ networks”,Research Policy, v. 39 (Fevereiro), pp. 14–26.

[9] YOO-JIN HAN, Y. P., 2006, “Patent network analysis of inter-industrial kno-wledge flows: The case of Korea between traditional and emerging indus-tries”, World Patent Information, (September), pp. 235–247.

36

estudodarededepatentesbrasileira joãovitorbarbosatavares projeto de graduação ... · 2016. 3....

Documents