estudodarededepatentesbrasileira joãovitorbarbosatavares projeto de graduação ... · 2016. 3....
TRANSCRIPT
ESTUDO DA REDE DE PATENTES BRASILEIRA
João Vitor Barbosa Tavares
Projeto de Graduação apresentado ao Cursode Engenharia de Computação e Informaçãoda Escola Politécnica, Universidade Federaldo Rio de Janeiro, como parte dos requisitosnecessários à obtenção do título de Engenheiro.
Orientador: Daniel Ratton Figueiredo
Rio de JaneiroFevereiro de 2016
b
Aos meu pais, meus irmãos eminha futura esposa
Agradecimentos
Primeiramente, agradeço ao meu Deus pela sua graça e infinitas bençãos emminha vida.
Agradeço à minha família e sobretudo meus pais por todo apoio e incentivo quesempre me deram. Obrigador por me amarem e cuidarem de mim.
À minha namorada e futura esposa, por sempre acreditar em mim, mesmoquando eu não acreditava. Por todo seu carinho, amor e dedicação. Você é amelhor namorada do mundo. Amo você.
Agradeço ao meu orientador, Prof. Daniel Ratton Figueiredo por compartilharseu tempo e conhecimento comigo. E aos professores da UFRJ que contribuírampara o meu aprendizado.
c
Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ comoparte dos requisitos necessários para a obtenção do grau de Engenheiro deComputação.
ESTUDO DA REDE DE PATENTES BRASILEIRA
João Vitor Barbosa Tavares
Fevereiro/2016
Orientador: Daniel Ratton Figueiredo
Curso: Engenharia de Computação e Informação
Redes são abstrações criadas a partir de um conjunto qualquer de objetos re-lacionados par-a-par. Estes relacionamentos podem dar origem a diversos tipos deredes, tais como redes de colaboração, redes de proteínas, redes de energia, entreoutras. Patentes têm sido utilizadas para dar origem a redes de coautoria entreinventores e redes de citações entre patentes.
Neste trabalho a base de patentes brasileira é utilizado para construir a rede decolaboração entre depositantes. Os vértices da rede são as instituições depositantese arestas indicam que dois vértices depositaram uma patente em conjunto. Osvértices são divididos em duas categorias com o objetivo de analisar a interaçãoentre industria e academia. Além disso, são propostas métricas para identificar osvértices mais centrais da rede, ou seja, que possuem maior influência.
Palavras-chave: Redes de Colaboração, Patentes, Instituições, Homofilia, Centrali-dade.
d
Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillmentof the requirements for the degree of Engineer.
A STUDY ABOUT BRAZILIAN PATENTS NETWORK
João Vitor Barbosa Tavares
February/2016
Advisor: Daniel Ratton Figueiredo
Course: Computer Engineering
A network is a collection of objects joined together in pairs by lines. Theseobjects can generate varius type of networks, such as collaborative networks, proteinnetworks, energy networks, and so on. Patents database have been used to createco-authorship network among inventors and citations network among patents.
In this work, the brazilian patent database was used to create a network amonginstitutions. The vertices of the network are the institutions that place patents inBrasil and edges indicate that two vertices placed a patent together. The verticesare grouped in two classes in order to analyze the interaction between industry anduniversities. Futhermore, is it proposed metrics to identify the most centrals verticesof the network.
Keywords: Collaboration Network, Patents, Institutions, Homophily, Centrality.
e
Sumário
Lista de Figuras h
Lista de Tabelas i
1 Introdução 1
2 Redes 32.1 Caracterizando Redes . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Distribuição de Grau . . . . . . . . . . . . . . . . . . . . . . . 62.1.2 Distâncias e Small World . . . . . . . . . . . . . . . . . . . . 82.1.3 Componentes Conexas . . . . . . . . . . . . . . . . . . . . . . 92.1.4 Redes Livres de Escala . . . . . . . . . . . . . . . . . . . . . . 92.1.5 Centralidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.6 Homofilia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Patentes e Redes de Colaboração 153.1 Tipos de Redes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.1 Redes de Colaboração . . . . . . . . . . . . . . . . . . . . . . 163.1.2 Rede de Citação de Patentes . . . . . . . . . . . . . . . . . . . 17
3.2 Trabalhos Similares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.3 Patentes Brasileiras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3.1 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.3.2 Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4 Rede de Patentes Brasileira 224.1 Construindo a Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.2 Análise da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.1 Distribuição de Grau . . . . . . . . . . . . . . . . . . . . . . . 244.2.2 Componentes Conexas . . . . . . . . . . . . . . . . . . . . . . 254.2.3 Centralidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.2.4 Homofilia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
f
SUMÁRIO g
5 Software 295.1 Criação e Análise da Rede . . . . . . . . . . . . . . . . . . . . . . . . 29
5.1.1 Parser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295.1.2 Gerador de Estatísticas . . . . . . . . . . . . . . . . . . . . . . 305.1.3 Gerador da Rede . . . . . . . . . . . . . . . . . . . . . . . . . 315.1.4 Análise da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2 Portal Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325.2.1 Intervalo de tempo . . . . . . . . . . . . . . . . . . . . . . . . 335.2.2 Atualização da Rede . . . . . . . . . . . . . . . . . . . . . . . 33
6 Conclusão 346.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Referências Bibliográficas 36
Lista de Figuras
2.1 Rede de amizade entre um grupo de pessoas. . . . . . . . . . . . . . . 42.2 Distribuição complementar cumulativa de grau da rede da 2.1. . . . . 7
3.1 Dados bibliográficos de uma patente contida em uma rpi. . . . . . . . 183.2 Gráfico do número de patentes pelo número de inventores das insti-
tuições com mais patentes em escala log-log. . . . . . . . . . . . . . . 203.3 CCDF da produção de patentes por inventor e por instituição. . . . . 21
4.1 CCDF da distribuição de Grau da Rede de Colaboração entre Insti-tuições. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2 Distribuição das componentes conexas da rede de colaboração entreinstituições. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Ranqueamento dos vértices da rede. . . . . . . . . . . . . . . . . . . . 26
5.1 Rede de colaboração entre instituições. . . . . . . . . . . . . . . . . . 315.2 Rede de colaboração entre instituições entre os anos 2010 e 2015. . . 32
h
Lista de Tabelas
2.1 Homofilia da rede de colaboração entre pesquisadores. . . . . . . . . . 14
4.1 Homofilia da rede de colaboração entre instituições. . . . . . . . . . . 274.2 Homofilia do peso das arestas da rede de colaboração entre instituições. 28
i
Capítulo 1
Introdução
Ao longo dos anos, redes tem sido utilizadas para modelar e estudar problemas
de inúmeras áreas, principalmente devido a sua capacidade de generalização. Redes
são abstrações que codificam relacionamentos entre pares de objetos, dando origem
a diversos tipos de redes, tais como rede de colaboração, redes de energia, redes de
neurônios, entre outras. Bases de dados de patentes têm sido usadas para dar origem
a alguns tipos de redes, como: redes de citações entre patentes, redes de coautoria
de patentes e redes de colaboração entre instituições.
Este trabalho visa construir e analisar a rede de patentes entre instituições de-
positantes de patentes no Brasil. Os dados foram coletados a partir das revistas de
propriedade industrial, publicadas semanalmente pelo INPI (Instituto Nacional de
Propriedade Intelectual), onde é possível obter os dados bibliográficos das patentes
depositadas no brasil. Desta maneira, foi possível construir a rede de colaboração
entre depositantes de patentes, onde os vértices são depositantes e as arestas indi-
cam que dois vértices depositaram ao menos uma patente em conjunto. Além disso,
os vértices foram rotulados, manualmente, em públicos e privados.
Neste trabalho, são analisadas algumas características da rede como distribuição
de grau, componentes conexas, vértices mais centrais e homofilia. Além disso, foi
construída uma ferramenta web para visualização dos dados e da rede.
O restante deste trabalho esta organizado da seguinte forma. No capítulo 2 são
abordados alguns conceitos importantes relacionados a redes, tais como distribuição
1
de grau, centralidade e homofilia. O capítulo 3 apresenta os dados das patentes
brasileiras e algumas estatísticas elementares. O capítulo 4 aborda a construção e
análise da rede de colaboração entre depositantes de patentes. O capítulo 5 discorre
sobre o desenvolvimento do software para construção e análise da rede de patentes,
assim como o desenvolvimento de uma ferramenta web para visualização dos dados
e da rede. Por fim, no Capítulo 6 é feito um apanhado geral sobre os resultados
apresentados ao longo deste trabalho.
2
Capítulo 2
Redes
Nas últimas décadas, o interesse por estudar e compreender diferentes aspectos de
redes tem aumentado em diversas áreas. Apesar das atividades recentes, em 1736 o
matemático Leonhard Euler propôs um modelo de redes (na verdade, um grafo) para
representar e posteriormente resolver o problema das pontes de Königsberg. Sendo
este momento, considerado o surgimento da teoria dos grafos, área empenhada em
resolver problemas combinatoriais em grafos. No entanto, o interesse por redes saiu
da área teórica para as mais diversas aplicações e hoje em dia é possível ver desde
sociólogos a médicos estudando redes.
Mas o que são redes, afinal? De forma geral, redes são um conjunto de objetos
relacionados par-a-par. Os objetos, chamados de nós ou vértices, podem ser de
qualquer natureza, desde pessoas, artigos científicos e proteínas. Enquanto que os
relacionamentos, chamados de arestas, podem representar qualquer relação entre
pares de vértices, seja física ou abstrata. Considere a rede de amizade de uma
pequena cidade. Nesta rede, os vértices são as pessoas, enquanto que as arestas
codificam o relacionamento de amizade entre duas pessoas. Para construir a rede,
precisamos saber quem são os vértices e quais são as arestas. Por exemplo, os
vértices são todas as pessoas que moram na cidade, e para conhecer as arestas,
basta perguntar para cada pessoa quem são os seus amigos. Assim, se Pedro diz que
é amigo de João, teremos uma aresta entre Pedro e João, mas se ele diz que não é
amigo de Carlos, então não teremos uma aresta entre eles. A figura 2.1 ilustra uma
3
Figura 2.1: Rede de amizade entre um grupo de pessoas.
rede de amizade entre um grupo de pessoas.
Construir uma rede, principalmente quando ela é grande, sempre foi um grande
desafio. Construir a rede de amizade entre pessoas de uma pequena cidade é um
desafio que pode ser superado, mas imagine construir a rede de amizade de uma
cidade com milhões de habitantes, como o Rio de Janeiro. Certamente não seria
viável construir essa rede perguntando para cada pessoa quem são os seus amigos.
Em virtude da evolução tecnológica e principalmente da internet, construir redes
desta proporção tornou-se um desafio possível. Hoje, é possível utilizar uma rede
social online, como o Facebook, para identificar a rede de amizade de entre um
enorme número de pessoas (existem mais de 1.2 bilhão de usuários no Facebook).
Rede sociais, muitas vezes, são objeto de estudo de sociólogos que tentam entender
o comportamento humano. Por exemplo, como boatos se propagam ou quais as
pessoas mais influentes da rede.
Uma rede bem conhecida, e que tornou-se objeto de estudo em muitas áreas, é
4
a World Wide Web, mais conhecida como WWW. Nesta rede, os nós são as páginas
web e as arestas codificam a possibilidade de navegar de uma página para outra, ou
seja, se existe um hiperlink de uma página para outra. Foi utilizando esta rede que
a empresa Google criou um algoritmo de ranqueamento de páginas web (conhecido
como PageRank) que é utilizado em seu site de buscas.
Além desses exemplos, redes, como ferramente de modelagem entre objetos e seus
relacionamento, tem sido usado em inúmeras áreas, dando origem as mais diversas
redes, tais como: redes de energia, redes de neurônios, redes de patentes e muitas
outras. Mas o que torna redes tão especial, sobretudo para áreas tão distintas? Redes
são abstrações utilizadas para modelar um problema real, desta forma, podem ser
aplicadas em problemas de diversas áreas.
Estudar e compreender redes envolve tanto aspectos da estrutura das rede como
os fenômenos que ocorrem sobre as elas. E para entender como fenômenos comportam-
se nas redes, é preciso caracterizar a estrutura de uma rede. Por exemplo, como
uma epidemia se espalha em uma rede? Existe alguma propriedade estrutural que
contribua significativamente para a propagação da epidemia? Uma falha na rede
de transmissão de energia pode gerar um apagão em uma cidade, ou um estado?
Por isso, estudar a estrutura das redes nos ajuda a entender fenômenos como estes
porque a estrutura influencia diretamente processos que operam sobre as redes.
2.1 Caracterizando Redes
Antes de apresentar as características de uma rede, é necessário defini-la for-
malmente. Como dito anteriormente, redes são um conjunto de objetos relaciona-
dos par-a-par. Assim sendo, pode-se definir dois conjuntos. Primeiro, o conjunto
dos vértices V = {v0, v1, v2, ..., vn−1}, que representam os objetos da rede, sendo
o número de vértices dado por n = |V |. O segundo conjunto são as arestas, que
representam a existência de relacionamentos entre dois vértices, será denotado por
E = {e0, e1, e2, ..., em−1}. A aresta ek = (i, j) representa a existência do relaciona-
mento entre o par (i, j). Não será abordado o caso em que os relacionamentos são
5
assimétricos, ou seja, quando (i, j) 6= (j, i). O número de arestas deste conjunto
é dado por m = |E|. Assim sendo, podemos definir nossa rede, ou grafo, como é
comumente conhecido, como G = (V,E).
Um grafo com n vértices pode ter no mínimo 0 arestas ou no máximo n(n−1)/2
arestas, onde cada vértice está conectado com todos os outros vértices da rede. Com
esses conhecimentos, é possível definir a densidade da rede, dada por:
ρ =m
n(n− 1)/2(2.1)
A equação 2.1 representa a fração de arestas presentes na rede. No caso da
rede 2.1, n = 17, m = 25 e sua densidade é ρ = 0.18, que é uma densidade baixa e
portanto a rede 2.1 pode ser considerada esparsa. Redes reais, tais como do Facebook
e WWW, costumam apresentar uma densidade muito baixa.
2.1.1 Distribuição de Grau
Em uma rede, um vértice vk pode ter de 0 a n− 1 arestas. O número de arestas
do vértice vk é conhecido como grau. Observe a rede figura 2.1, o vértice J tem grau
7, já o vértice F tem grau 5. Conhecido o grau de um vértice, é possível determinar
o grau médio de uma rede, que é dado pela média aritmética dos graus dos vértices
que formam a rede, matematicamente:
d̄ =1
n
∑i∈V
di =2m
n(2.2)
Assim, o grau médio da rede da figura 2.1, é d̄ = 2.94.
Neste momento, é possível definir uma característica importante pertencente a
qualquer rede, sua distribuição de grau. A distribuição de grau é a fração de vértices
da rede que possui um determinado grau. Dado uma rede G = (V,E), considere nk
o número de vértices com k arestas, ou grau igual a k. A fração de vértices da rede
com grau igual a k é:
fk =nkn, k = 0, 1, ..., n− 1 (2.3)
6
Figura 2.2: Distribuição complementar cumulativa de grau da rede da 2.1.
A equação também 2.3 representa a probabilidade de um vértice v que tenha grau
igual a k ser escolhido ao acaso e de forma uniforme. Definida esta equação, é possível
visualizar graficamente a distribuição de grau de uma rede. No entanto, para a
visualização da distribuição de grau neste trabalho, estaremos mais interessados na
distribuição complementar cumulativa (CCDF) do grau, isto é, na fração de vértices
da rede que possui k ou mais arestas. Formalmente:
Fk = 1−k−1∑i=0
fi (2.4)
A figura 2.2 apresenta a CCDF da distribuição de grau da rede 2.1.
O gráfico 2.2 apresenta a fração dos vértices que possuem grau maior ou igual
a k. Por exemplo, em torno de 80% dos vértices possuem grau maior ou igual a
2 (P [D >= 2] ≈ 0.8), enquanto que apenas aproximadamente 20% possuem grau
maior ou igual a 5, (P [D >= 5] ≈ 0.2).
7
2.1.2 Distâncias e Small World
Uma outra característica importante de redes são seus caminhos e distâncias
entres os vértices. Imagine uma rede com 5 cidades e as arestas sendo as estradas
que ligam as cidades. Existe um caminho entre a cidade A e B, se for possível sair
de A e chegar em B. Deste modo, podemos definir caminho como uma sequência
de vértices em que exista uma aresta entre os vértices adjacentes, sendo que não é
possível ter vértices repetidos em um caminho. Considere a rede 2.1, existe uma
caminho entre os vértices E e M? Para o caminho existir, deve ser possível sair do
vértice E e chegar ao vértice M, passando por arestas. Neste caso, existe mais de um
caminho, e um dos possíveis é CE,M = {E,F,H, J,M}. Além de conhecer o caminho
entre dois vértices, pode-se definir o comprimento do caminho, que é o número de
arestas presentes no caminho. No caso, o comprimento do caminho entre os vértices
E e M é 4.
Observe a rede da figura 2.1, pode existir mais de um caminho entre dois vér-
tices, e possivelmente com comprimentos distintos. Por isso, o comprimento do
menor caminho entre dois vértices é chamado de distância. É possível existir mais
de um caminho com este comprimento. Agora, podemos definir uma importante
propriedade estrutural da rede, a sua distância média:
l̄ =
∑i,j∈V l(i, j)(
n2
) , (2.5)
onde l(i, j) é a distância entre os vértices i e j. A distância média da rede da
figura 2.1 é l̄ = 1.11.
Com base na definição de distância média, podemos definir o diâmetro da rede,
que é a maior distância entre qualquer par de vértices da rede. Assim, o diâmetro
L de uma rede é:
L = maxi,j∈V
l(i, j) (2.6)
O diâmetro da rede 2.1 é 3, sendo o comprimento do caminho entre os vértices
8
E e Q.
Estas definições são importantes por causa de um fenômeno conhecido como
Small-World. Este fenômeno esta presente em redes cuja distância média é muito
menor do que o tamanho da rede. Por exemplo, uma parte do grafo da WWW com
108 vértices possui distância média de 7.5. Enquanto que uma parte da rede do
Facebook com então 109 vértices possui distância média de 4.5. O Small World é
importante porque influencia diretamente na ocorrência de diversos eventos na rede,
tal como propagação de uma epidemia na rede. Claramente ela irá se espalhar mais
rapidamente em redes cuja distância média for pequena.
2.1.3 Componentes Conexas
Uma rede é dita conexa quando existe caminho entre todos os pares de vértices.
Por exemplo, a rede da figura 2.1 não é conexa pois não existe caminho entre os
vértices B e O, ou J e A, por exemplo. Embora a rede 2.1 não seja conexa, ela
possui duas componentes conexas. Componente conexa C1 = {A,B,C,D,K} e
componente conexa C2 = {E,F,G,H, I, J, L,M,N,O, P,Q}. Algumas redes reais
possuem um componente conexa gigante, contento geralmente mais de 80% dos
vértices.
Além de uma rede ser conexa, ela também pode ser um clique. Clique é quando
uma rede ou subrede que tem densidade ρ = 1, ou seja, existe uma aresta entre
todos os pares de vértices da rede. A rede da figura 2.1 não é um clique, mas possui
algumas subredes que são um clique, por exemplo, os vértices H, F, E, O formam
um clique.
2.1.4 Redes Livres de Escala
Redes livre de escala são redes que possuem distribuição de grau como lei de
potência. Lei de potência é um modelo matemático que apresenta a seguinte forma:
pX(x) ∝ kx−α, (2.7)
9
sendo o parâmetro α o expoente da lei de potência.
Distribuição de grau foi uma das primeiras características de redes a ser estu-
dada. Os cientistas esperavam encontrar nas redes reais distribuições de grau com
valores muito próximos ao grau médio. Mas, na maioria dos casos, eles encontraram
distribuições de grau que seguem lei de potência, com α assumindo valores entre 2
e 3.
Uma distribuição que segue lei de potência decresce muito devagar, gerando
valores, probabilidades não desprezíveis, muito distante do grau médio. Portanto,
uma distribuição em lei de potência possui o que chamamos de cauda pesada.
Vale ressaltar que ao aplicar a escala log-log a uma distribuição com lei de potên-
cia, o gráfico obtido é uma reta, evidenciando o fenômeno de cauda pesada dessas
distribuições. Isso pode ser observado a partir da definição da equação 2.7 depois
de aplicarmos o logaritmo:
log pX(x) ∼ −α log x+ log k (2.8)
Distribuições que seguem lei potência recebem o nome de distribuições livre
de escala, porque uma função que segue uma lei de potência tem a propriedade
de manter a forma em qualquer escala. Uma rede é livre de escala quando sua
distribuição de grau seguir um lei de potência.
2.1.5 Centralidade
No estudo de redes, podem ser feitas perguntas tais como, quais os vértices mais
importantes da rede? Ou, quais as arestas mais importantes?. Essa é uma questão
que tem papel central em muitos estudos. Considere a rede da World Wide Web,
qual é a página web mais importante? Ou no assunto política, qual é a página
mais influente? Para responder perguntas como estas, é preciso definir métricas que
nos ajude ranquear os vértices, ou as arestas, de acordo com alguma característica.
Desta forma, muitas métricas foram propostas ao longo do anos, algumas das quais,
10
são abordadas neste trabalho.
Grau
O grau de um vértice é a medida mais simples para calcular a centralidade em
uma rede. O grau, como vimos, é o número de arestas que um vértice possui, assim,
nesta métrica, vértices com os maiores graus são os mais importantes da rede. Por
exemplo, na figura 2.1, os vértices mais centrais são J, H, F, com graus 7, 6, 5,
respectivamente.
Esta métrica, apesar de simples, pode ser interessante para algumas redes e
fenômenos. Imagine uma rede de amizade, vértices com os maiores graus são as
pessoas com mais relacionamentos na rede. É intuitivo pensar que por terem um
grau alto, elas sejam as pessoas mais influentes da rede. Ao mesmo tempo, em uma
epidemia na rede, vértices com graus altos tem um papel muito importante em sua
propagação, já que podem infectar diretamente muito mais pessoas.
PageRank
Vimos que vértices com graus altos podem ser considerados importantes na rede,
mas em alguns casos, a importância de um vértice não depende apenas da quantidade
de arestas que ele possui. Imagine dois vértices com grau 20, pode-se dizer que eles
são igualmente importantes somente porque possuem o mesmo grau? Por esta razão,
foram criadas métricas que não se baseiam somente no número de arestas de um
vértice, mas também na importância do vértice que está do outro lado da aresta.
A ideia é atribuir a cada vértice uma importância que depende da importância
dos seus vizinhos. Assim, se um vértice é vizinho de muitos vértices, mas que pos-
suem uma importância pequena, este não terá uma grande importância. Entretanto,
um vértice com apenas uma aresta pode ter uma grande importância, desde que seu
vizinho seja um vértice muito importante.
Para ilustrar essa métrica, considere novamente a rede de páginas Web. A rede
WWW é construída a partir dos hiperlinks presentes nas páginas. Assim, quando
11
uma página web cita outra, ou seja, existe um hiperlink na primeira para a segunda,
é traçado uma aresta que aponta da primeira página para a segunda. Desta maneira,
páginas que possuem muitos hiperlinks tendem a ser mais importantes, mas uma pá-
gina com poucos hiperlinks pode ser importante se for apontada por outras páginas
importantes. Vale ressaltar que a influência que um vértice exerce em seus vizinhos é
inversamente proporcional ao seu grau. Assim, um vértice que é apontado por outro
muito importante pode receber uma baixa importância se este último também citar
muitas outras páginas. Matematicamente, a métrica de PageRank pode ser definida
como:
ci = α∑j
Aijcjdoutj
+ β, (2.9)
onde cj é a importância do vértice j.
Para os casos em que os vértices tenham grau de saída douti = 0, fixa-se douti = 1
para que o primeiro termo não seja indefinido. Aij é o elemento i, j da matriz de
adjacência e representa a existência de uma aresta de i para j. Já o β, atribui
uma importância inerente ao vértice, portanto, vértices com dini = 0 ainda exercerão
influência nos vértices que eles apontam.
Closeness
A centralidade de closeness utiliza distâncias para atribuir importância aos vér-
tices da rede. A centralidade de closeness mede a distância média entre o vértice i
e todos os outros vértices da rede. Formalmente:
Cj =1
n− 1
∑i( 6=j)
lij; (2.10)
onde li,j é a distância entre o vértice e i e o vértice j.
Diferentemente das outras métricas de centralidade, os vértices mais centrais
recebem os menores valores. Esta métrica tenta capturar o quão rápido uma in-
formação pode se propagar por uma rede. Imagine um vértice com uma distância
12
média pequena, isso significa que ele está bem próximo de todos os vértices da rede.
Com isso, ele teria mais facilidade de disseminar uma informação pela rede, por
exemplo.
Betweenness
A centralidade de betweenness utiliza os caminhos entre vértices para aferir im-
portância a um vértice. Considere o vértice v, e todos os caminhos mínimos entre
os pares de vértices (i, j), a centralidade de betweenness do vértice v é:
bv =∑
i,j∈V ;i,j 6=u
σv(i, j)
σ(i, j), (2.11)
onde σv(i, j) é o caminho mínimo entre o vértice (i, j) que passa pelo vértice v.
Portanto, os vértices mais centrais desta métrica são aqueles presentes em mais
caminhos mínimos entre pares de vértices.
2.1.6 Homofilia
Em certas redes, os vértices podem ser classificados em diferentes tipos. Con-
sidere a rede da figura 2.1, os vértices estão classificados em duas classes, C1 =
{B,C, J,K, L,M,N, P,Q} e C2 = {A,D,E, F,G,H, I, O}. É possível ver uma forte
tendência de existir arestas entre vértices da mesma classe. Este fenômeno, chamado
de homofilia, é a tendência de pessoas com características similares relacionarem-se
entre si.
Uma maneira de medir homofilia em uma rede é calcular a fração de arestas do
tipo i pelo total de arestas da rede. Estas duas classes geram três tipos diferentes
de arestas, EC1 = {(i, j)|i, j ∈ C1}, EC2 = {(i, j)|i, j ∈ Vf} e ED = {(i, j)|i, j
pertencem a classes diferentes }. Sendo, |EC1| = 9, |EC2| = 12 e |ED| = 4, a tabela
2.1 apresenta a homofilia entre os vértices desta rede, sendo ai a fração de arestas
que incidem sobre vértices do tipo i assim como bj são as arestas que incidem sobre
vértices do tipo j.
13
C1 C2 aiC1 0.36 0.16 0.52C2 0.16 0.48 0.64bi 0.52 0.64
Tabela 2.1: Homofilia da rede de colaboração entre pesquisadores.
Observando a tabela 2.1, é possível notar que 84% das arestas possuem vértices
da mesma classe, enquanto que apenas 16% das arestas possuem vértices de classes
diferentes, o que indica que a rede tem uma homofilia forte entre vértices da mesma
classe.
A partir da tabela 2.1, é possível calcular o coeficiente de assortatividade da rede
que verifica se existe uma tendência de haver arestas com vértices do mesmo tipo
ou se as arestas se formam de maneira aleatória [3]. Matematicamente:
r =
∑i eii −
∑i aibi
1−∑
i aibi, (2.12)
onde∑
i aibi é o valor esperado da aresta eii se fosse gerada de maneira aleatória.
O valor de r é necessariamente menor ou igual a 1, onde r = 0 significa que existe
apenas arestas entre vértices do mesmo tipo, r = 0, significa que os relacionamentos
foram gerados de maneira aleatória, r < 0, significa que predominam arestas entre
vértices de tipos diferentes. No caso da rede da figura 2.1, r = 0.5, indicando um
forte relacionamento entre vértices do mesmo tipo.
14
Capítulo 3
Patentes e Redes de Colaboração
No capítulo anterior, foram apresentadas alguns tipos de redes, desde redes tec-
nológicas até redes sociais. Neste capítulo é abordado um tipo específico de rede,
mais precisamente, a rede de colaboração na produção de patentes. Redes de cola-
boração tem sido objeto de estudo em diversas pesquisas [4], muitas das quais estão
focadas na rede de colaboração científica onde vértices são pesquisadores e arestas
denotam coautoria de artigos científicos[4, 6].
Patente é um meio de apresentar um novo conhecimento e garantir a uma pessoa
ou empresa, os direitos comercias sobre uma determinada tecnologia ou conheci-
mento. Praticamente todos os países possuem um banco de patentes, muitos dos
quais estão disponíveis na Web. No Brasil, o órgão responsável por manter as pa-
tentes depositadas no país é o INPI, Instituto Nacional de Propriedade Intelectual.
Uma base de dados referente a patentes possui muitas informações sobre pro-
dução tecnológica, inovações, inventores, depositantes e e outras informações. Por
exemplo, uma patente pode ter um ou mais inventores, um ou mais depositantes,
que no caso podem ser as empresas que possuem direto comercial sobre a patentes.
Patentes também são classificadas em áreas, além de possuir data de publicação. A
partir destes dados é possível gerar diferentes tipos de redes, algumas das quais são
abordadas a seguir.
15
3.1 Tipos de Redes
3.1.1 Redes de Colaboração
Uma patente muitas vezes é o resultado de uma colaboração entre mais de uma
pessoa e até mesmo mais de uma empresa. Este fenômeno de colaboração da origem
a dois tipos de redes:
Redes de Coautoria
Uma patente pode ter mais de um inventor, o que garante crédito científico e
financeiro a todos os inventores. A partir destas informações, é possível criar uma
rede de coautoria de patentes [8]. Nesta rede, os vértices são inventores, e as arestas
indicam que eles produziram uma ou mais patentes em conjunto. Repare que nesta
rede, uma patente gera um clique com todos os seus inventores.
Redes de Colaboração entre Instituições
Uma patente, além de inventores também possui depositantes. Estes depositan-
tes podem ser os próprios inventores, no caso de inventores independentes. Mas na
maioria das vezes, os depositantes são as instituições nas quais os inventores tra-
balham. Neste trabalho, as instituições são divididas em dois grupos: instituições
públicas e instituições privadas.
Assim como inventores, algumas patentes possuem mais de um depositante,
dando origem a uma rede de colaboração entre instituições. Assim, os vértices são
instituições e arestas entre dois vértices indicam que estes depositam uma patente
em conjunto. Uma patente, assim como no caso anterior, gera um clique com todos
os seus depositantes.
16
3.1.2 Rede de Citação de Patentes
Uma patente quando produzida, geralmente cita outras patentes já existentes.
Desta maneira, é possível criar uma rede semelhante a rede daWorld Wide Web, onde
os vértices são as próprias patentes, e as arestas são as citações entre as patentes.
Esta rede é conhecida por Rede de citação entre patentes [1].
Os vértices não são a única diferença entre essa e as duas redes anteriores. Nesta
rede, as arestas são direcionadas, apontando do vértice que citou para o vértice
citado. É importante notar que essa rede tem uma dependência temporal, ou seja,
patentes citam necessariamente patentes anteriores.
A rede de citações de patentes americanas é um exemplo deste tipo de rede. Ela
é resultado de um projeto mantido pelo NBER, que contém patentes publicadas
entre Janeiro de 1963 e Dezembro de 1999.
3.2 Trabalhos Similares
Existem alguns trabalhos na literatura que estudam patentes e as redes que
podem ser geradas a partir delas. Yoo-Jin Han e Yongtae Park propuseram métodos
para medir o fluxo do conhecimento inter indústria [9].
Olhando mais atentamente, uma rede de citações de patentes é uma rede em
evolução, onde é possível aferir o processo de evolução tecnológico. Existem métri-
cas que tentam prever o surgimento de novas tecnologias baseado nas citações das
patentes [7].
Um estudo utilizando a rede de citação de patentes propõe uma métrica para
determinar a probabilidade de uma patente ser citada por outras, chamada de função
de atratividade [2].
17
Figura 3.1: Dados bibliográficos de uma patente contida em uma rpi.
3.3 Patentes Brasileiras
Foram apresentadas alguns tipos de redes que podem ser criadas a partir de uma
base de patentes. Neste trabalho, foi utilizado a base de patentes brasileira para
criar e estudar a rede de colaboração entre instituições. Esta seção aborda algumas
estatísticas da base de patentes sem considerar a rede. Detalhes sobre a rede de
colaboração entre instituições são abordados no próximo capítulo.
3.3.1 Dados
As patentes brasileiras são mantidas pelo Instituto Nacional de Propriedade In-
telectual (INPI) que publica, semanalmente, uma revista da propriedade industrial,
onde é possível acompanhar o andamento dos pedidos de patentes depositados no
Brasil. No entanto, as patentes disponíveis publicamente não estão em um formato
que possa ser lido facilmente por um software. Todas as patentes são publicadas
com seus respectivos dados bibliográficos, onde cada dado bibliográfico, como in-
ventor, possui uma chave de identificação, por exemplo, a chave (72) indica o nome
do inventor. Por isso, foi necessário criar um software capaz de ler e analisar as
revistas, extraindo os dados bibliográficos de cada patente. A figura 3.1 mostra os
dados bibliográficos de uma patente contida em uma RPI.
Uma patente possui diversos dados bibliográficos, sendo os mais relevantes para
este trabalho: número do pedido, data do depósito, dados da prioridade unionista,
nome do depositante e nome do inventor. Uma patente pode aparecer mais de uma
vez nas RPI (revistas de propriedade industrial), por isso foi necessário guardar o
número do pedido, para não contabilizar a mesma patente mais de uma vez. Os
18
dados de prioridade unionista contém o país de origem da patente, o que permitiu
considerar apenas patentes produzidas por instituições brasileiras e desconsiderar
patentes produzidas em outros países. Entretanto, os dados de depositantes foram
importantes para gerar a rede de instituições.
3.3.2 Estatísticas
Patentes e Inventores
A partir dos dados bibliográficos de uma patente, é possível obter o número de
patentes e o número de inventores de cada instituição presente na base de patentes.
Com isso, pode-se visualizar a proporção de inventores por patentes de cada insti-
tuição e verificar se essa proporção depende da instituição ser privada ou pública,
com fins acadêmicos. Para tal, seja P = {p1, p2, .., ps} o conjunto de patentes da
base de dados, ti o número de inventores da instituição i e ni o número de patentes
da instituição i, então ti é:
ti =s∑j=1
1(i ∈ Dj)|Vj|, (3.1)
onde Dj é o conjunto de depositantes da patente j e Vj é o conjunto de inventores da
patente j. E 1 é a função indicadora, que vale 1 quando o argumento é verdadeiro
e 0 caso contrário.
Além disso, o número total de patentes da instituição i:
ci =s∑j=1
1(i ∈ Dj) (3.2)
Assim, figura 3.2 apresenta o gráfico de ci por ti das 150 instituições com mais
patentes, considerando apenas instituições que depositaram ao menos 10 patentes.
Cada ponto corresponde a uma instituição e note que as instituições estão dividi-
das em dois grupos: o círculo verde representa as instituições públicas e o X azul
representa as instituições privadas. A linha vermelha representa a reta x = y
Observando com atenção o gráfico, que está em escala log-log, pode-se ver que
19
Figura 3.2: Gráfico do número de patentes pelo número de inventores das instituiçõescom mais patentes em escala log-log.
as instituições com mais inventores são públicas e as instituições com mais patentes
são privadas. Isso representa dois fenômenos que estão presentes nesses tipos de
instituições, competição e colaboração. Repare que a grande maioria das institui-
ções públicas estão perto da reta x = y, e algumas acima, o que significa, que tal
instituição tem mais inventores do que patentes, contribuindo para a hipótese de
colaboração na academia. Já no caso das instituições privadas, a grande maioria
esta bem abaixo da reta x = y, mostrando que uma instituição privada tende a ter
muitos mais patentes do que inventores, evidenciando a hipótese de competição.
Fração de Patentes por Inventores e por Instituições
Uma outra análise que pode ser feita da base de patentes é sobre a produção de
patentes por inventores comparando com a produção de patentes por instituições.
Seja o conjunto P = {p1, p2, .., ps} de patentes, o número de patentes ci produzidas
pela instituição i é dado pela equação 3.2, já o número de patentes do inventor i é:
20
Figura 3.3: CCDF da produção de patentes por inventor e por instituição.
ri =s∑j=1
1(i ∈ Vj), (3.3)
onde Vj é conjunto de inventores da patente j.
Assim, é possível ver no gráfico da figura 3.3 a fração de inventores com k ou mais
patentes (em verde) e a fração de instituições com k ou mais patentes (em azul).
Como era esperado, uma instituição produz muito mais patentes que um inventor,
já que as patentes depositadas por uma instituição são criadas por um conjunto de
inventores. Além disso, o tempo de vida das instituições supera o dos inventores, o
que explica a reta azul se distanciar da reta verde, apresentando uma cauda pesada.
Ainda assim, é possível notar que a distribuição de patentes por inventor possui uma
cauda pesada, com alguns inventores depositando mais de 100 patentes, enquanto a
média de patentes por inventor é de 1.42. Algumas instituições chegam a depositar
mais de 1000 patentes, enquanto a média é de 1.58 patentes por instituição.
21
Capítulo 4
Rede de Patentes Brasileira
O capítulo anterior apresentou estatísticas retiradas diretamente da base de pa-
tentes. Este capítulo apresenta a criação e análise da rede de patentes brasileira.
4.1 Construindo a Rede
A partir da base de dados, foi possível construir uma rede de colaboração entre
os depositantes das patentes. Nesta rede, vértices são depositantes e uma aresta
entre dois vértices indica que eles depositaram uma ou mais patentes em conjunto.
Seja P = {p1, p2, ..., ps} o conjunto de patentes da base de dados e Di, o conjunto
de depositantes da patente i. Assim, cada patente i adiciona a rede um clique com
c = |Di| vértices e c(c− 1)/2 arestas.
A cada aresta (i, j) é atribuído um peso que captura a intensidade do relacio-
namento entre os vértices i e j, aumentando a medida que o número de patentes
depositada em conjunto pelos vértice i e j aumenta. Além disso, o peso adicionado
a uma aresta é inversamente proporcional ao número de depositantes da patente.
Formalmente, o peso wij adicionado a aresta (i, j) por uma patentes é:
wij =1
ck − 1, (4.1)
onde ck é o número de depositantes da patente k, note que o valor mínimo de ck
22
é 2, pois uma aresta só existe se uma patente possui no mínimo dois depositantes.
Para classificar os vértices, os nomes dos depositantes foram analisados em busca
de palavras chaves que pudessem identificar a natureza das instituições. Desde modo,
depositantes com palavras chaves como "federal", "pública", "estadual", "militar",
entre outros, foram classificados como instituições públicas, enquanto depositantes
com palavras chaves como "ltda", "s.a.", "companhia", "corporation","s/a", entre
outros, foram classificados como instituições privadas. Por último, os depositantes
que não foram classificados como públicos nem privados, foram classificados como
outros. Ao final, os vértices foram classificados em três conjuntos: públicos, privados
e outros, que contém pessoas físicas e instituições públicas e privadas que não pu-
deram ser classificadas. Portanto, seja V = {v0, v1, ..., vn−1} o conjunto de vértices
da rede, então Vu = {v0, v1, ..., vh−1} é o conjunto de vértices da classe pública e
Vr = {v0, v1, ..., vr−1} o conjunto de vértices da classe privado.
4.2 Análise da Rede
A rede completa, com todos os vértices e arestas, possui um total de n = 102648
vértices e m = 21792 arestas, grau médio d̄ = 0.42 e densidade ρ = 4.13 × 10−6,
indicando ser muito esparsa e consequentemente que há muito pouca colaboração
entre instituições.
Desconsiderando o conjunto outros, o número de vértices da rede reduz para
n = 22316 e o número de arestas cai param = 1590. O grau médio da rede é d̄ = 0.14
e densidade ρ = 6.38× 10−6. A classe Vu possui 725 vértices correspondendo a 3.2%
do total de vértices, já a classe Vr possui 21591 vértices ou 96.8% dos vértices da
rede. Isso era esperado, já que produzir patentes não é uma das principais funções
das universidades.
Embora existam poucos vértices da classe público, eles são responsáveis pela
maioria das arestas da rede, já que 54% dos vértices públicos possuem pelo menos
uma aresta e apenas 5% dos vértices privados possuem arestas. Além disso, o
conjunto de vértices públicos possui grau médio d̄pub = 1.05, enquanto que o grau
23
Figura 4.1: CCDF da distribuição de Grau da Rede de Colaboração entre Institui-ções.
médio do conjunto de vértices privados é d̄priv = 0.038, indicando a tendência de
colaboração entre instituições acadêmicas.
4.2.1 Distribuição de Grau
O gráfico da figura 4.1 apresenta a CCDF (Complementary Cumulative Distri-
bution Function) da distribuição de grau da rede calculada para os três conjuntos
de vértices. O X em azul representa a distribuição de grau das instituições públicas,
os círculos verdes representam a distribuição de grau das instituições privadas e as
estrelas em vermelho representam a distribuição de grau dos vértices do conjunto
outros. Note que todas as três distribuições não possuem 100% dos vértices com
grau maior ou igual a 1, indicando que existem muitas com grau 0. Por exemplo,
mais de 90% das instituições privadas possuem grau zero, enquanto que em torno
de 60% das instituições públicas possuem grau diferente de zero.
24
Figura 4.2: Distribuição das componentes conexas da rede de colaboração entreinstituições.
É possível notar que a distribuição de grau das instituições públicas possui calda
pesada, se aproximando de uma lei de potência. A instituição pública com maior
grau tem em torno de 150 arestas, o que é mais de 100 vezes maior que o grau
médio. Portanto, é possível dizer que a rede de colaboração entre instituições é livre
de escala pelo menos na distribuição de grau das instituições públicas.
4.2.2 Componentes Conexas
A rede possui uma componente conexa com n = 676 e um m = 1057, e uma
densidade ρ = 4.6×10−3, que apesar de pequena é 1000 vezes maior que a densidade
total da rede. O número de vértices da maior componente conexa representa apenas
3% do total de vértice, sendo bem distante do que é encontrado em algumas redes
reais, cuja maior componente conexa possui, geralmente, mais de 80% dos vértices.
O gráfico da figura 4.2 apresenta a distribuição das componentes conexas da rede em
25
Figura 4.3: Ranqueamento dos vértices da rede.
escala log-log. Note que em torno 98% das componentes conexas possuem apenas
um vértice.
4.2.3 Centralidade
A tabela 4.3 apresenta o ranqueamento dos vértices de acordo com as métricas
de centralidade apresentadas no capítulo 2, onde cada instituição é representada
por uma cor. A coluna 1 da tabela 4.3 exibe os vértices com os maiores graus da
rede, ou seja, estes vértices são os que mais colaboram com instituições diferentes.
Além disso, é possível notar que 9 das 10 instituições são públicas, ilustrando o fenô-
meno de colaboração entre as instituições públicas e competição entre as instituições
privadas.
A coluna 2 da tabela 4.3 ranqueia os vértices pela soma dos pesos de suas arestas.
Esta métrica não captura a quantidade de relacionamentos do vértice mas sim a
intensidade dos relacionamentos. Repare que o terceiro vértice é uma instituição
privada, Mahle Metal leve s.a., mas o peso de suas arestas é proveniente de apenas
uma aresta que ela possui com sua matriz.
26
Público Privada aiPúblico 0.327 0.306 0.633Privada 0.306 0.366 0.672
bi 0.633 0.672
Tabela 4.1: Homofilia da rede de colaboração entre instituições.
Já a coluna 3 tabela 4.3 exibe os vértices ranqueados pela centralidade de close-
ness. O closeness mede a distância média entre o vértice i e todos os outros vértices
da rede. Repare que os valores de closeness das instituições são altos bem pareci-
dos. Isso ocorre porque cada patente depositada dá origem a um clique na rede,
diminuindo a distância entre os vértices.
A coluna 4 apresenta os vértices de acordo com seus valores de PageRank. No-
vamente, 9 dos 10 vértices são instituições públicas, indicando que a academia tem
forte influência na produção conjunta de patentes.
Por último, a coluna 5 apresenta os vértices ranqueados pelos seus valores de
betweenness, indicando aqueles presentes em mais caminhos mínimos entre pares
de vértices. Por fim, é possível notar que em todas as métricas de centralidade, as
instituições públicas dominam o ranqueamento no top 10.
4.2.4 Homofilia
Vértices com mesmas características tendem a colaborar entre si, por isso nesta
seção é calculado a homofilia entre as instituições públicas e as instituições privadas.
Homofilia pelo tipo das Arestas
Foi possível visualizar a homofilia da rede a partir dos tipos de arestas presentes
na rede. Existem três tipos de arestas na rede, E1 = {eij|i, j ∈ Vu}, E2 = {eij|i, j ∈
Vr} e E3 = {eij|Ci 6= Cj}. A partir desses conjuntos foi possível gerar a tabela 4.1.
É possível notar na tabela 4.1 que existe uma pequena tendência em vértices da
mesma classe depositarem patentes em conjunto, mas também existe uma fração
importante de arestas entre vértices de classes diferentes. Calculando o coeficiente
de assortatividade da rede, r = −1.07, que indica que na média a rede tende a ter
27
Público Privada aiPúblico 0.460 0.251 0.711Privada 0.251 0.288 0.539
bi 0.711 0.539
Tabela 4.2: Homofilia do peso das arestas da rede de colaboração entre instituições.
mais relacionamentos entre classes diferentes dos que intraclasses.
Homofilia pelo peso das Arestas
Como uma aresta (i, j) possui peso referente a intensidade do relacionamento
entre as instituições i e j, podemos montar uma tabela de homofilia levando em
consideração o peso das arestas. Assim, é levado em consideração a soma dos pesos
das arestas e não apenas a quantidade de arestas entre os tipos de vértices.
A tabela 4.2 apresenta os dados de homofilia a partir da soma dos pesos de cada
tipo de aresta. Pode-se notar que a homofilia entre vértices da classe pública aumen-
tou, enquanto que a homofilia entre vértices da classe privada diminui. O coeficiente
de assortatividade é r = −0.235, que é maior que o coeficiente de assortatividade
anterior, indicando que existe uma homofilia mais forte se for considerado o peso
das arestas. Ainda assim, prevalece o relacionamento entre instituições de classes
diferentes.
Intuitivamente, era esperado que houvesse muitos relacionamentos entre vértices
da mesma classe, mas calculando a homofilia e o coeficiente de assortatividade da
rede, foi possível observar uma grande interação entre vértices de classes distintas.
Como as instituições privadas tendem a competir, dificilmente elas depositam uma
patente em conjunto. Entretanto elas tendem a depositar com instituições públicas.
Por isso, existe um padrão forte de mixagem entre os vértices públicos e privados.
28
Capítulo 5
Software
Este capítulo apresenta uma descrição do software desenvolvido para criar e
analisar a rede de patentes entre instituições. O software foi totalmente desenvolvido
em python e para analisar a rede, foi utilizado um módulo de manipulação e análise
estatística de redes, chamado Graph-tool1. E para o desenvolvimento do portal web
foi utilizado o framework web Django2.
O software possui dois grandes módulos, divididos em submódulos. O primeiro
módulo foi desenvolvido para construir e analisar a rede. O segundo é um portal
web para visualização dos resultados.
5.1 Criação e Análise da Rede
Este módulo é responsável por analisar a base de patentes brasileira, disponível
publicamente nas revistas de propriedade industrial, obter estatísticas sobre a base
de dados e por fim, construir e analisar a rede de colaboração entre instituições.
5.1.1 Parser
A base de patentes utilizada neste trabalho foram as revistas de propriedade
industrial, publicadas semanalmente pelo INPI3. Este módulo é responsável por1https://graph-tool.skewed.de/2https://www.djangoproject.com/3http://revistas.inpi.gov.br/rpi/
29
analisar estas revistas extraindo suas patentes.
Uma patente é um conjunto de até 21 dados bibliográficos, sendo o número do
pedido da patente o seu identificador. Estes dados são identificados por uma chave,
por exemplo, o número do pedido da patente recebe o identificador 21, a data do
depósito, 22 e assim por diante. Assim, os dados bibliográficos de uma patente são
dispostos em sequência nas RPI.
Este módulo do software analisa cada linha das RPI, e quando encontra um
código 21, armazena todos os dados até o próximo código 21. Assim, cada patente
é extraída e armazenada em um dicionário, uma estrutura chave-valor em python
semelhante ao padrão JSON (JavaScript Object Notation). Além disso, as patentes
são agrupadas de acordo com seus anos de depósito, sendo criado um arquivo para
cada ano que houve publicação de patentes. Ao final, o módulo gera n arquivos,
cada um contento um array JSON, onde n é a quantidade de anos que teve pelo
menos uma patente publicada.
5.1.2 Gerador de Estatísticas
As estatísticas exibidas no capítulo 3 foram geradas a partir deste módulo. Para
tal, ele recebe como entrada os arquivos JSON gerados pelo parser e gera três
arquivos. O primeiro contém os nome de cada inventor e a quantidade de patentes
criadas por eles. O segundo possui os nomes das instituições com suas respectivas
quantidades de patentes depositadas. Por último, o terceiro arquivo contém o nome
da instituição, sua quantidade de patentes, seu número de inventores e sua classe.
A instituição pode ser classificada em pública ou privada.
Os dois primeiros arquivos são usados para gerar a CCDF da fração de patentes
produzidas por inventores e por instituições. Já o último arquivo contém apenas as
150 instituições com mais patentes depositadas e foi usado para gerar o gráfico da
figura 3.2.
30
Figura 5.1: Rede de colaboração entre instituições.
5.1.3 Gerador da Rede
Este módulo é responsável por construir a rede utilizando os dados gerados pelo
parser. Como o parser gera um arquivo JSON para cada ano, este módulo é capaz
de gerar uma rede para cada ano, ou uma rede para um intervalo de anos. Assim,
ele recebe como entrada um ou mais array JSON que contém as patentes e gera ao
final a rede em formato xml.
5.1.4 Análise da Rede
Este módulo recebe como entrada a rede de instituições em formato xml, gerada
pelo módulo anterior. Ele utiliza o módulo graph-tool para manipular e analisar a
rede, extraindo as estatísticas apresentadas no capítulo 4.
Como a rede possui três conjuntos de vértices, é possível criar uma sub-rede
31
Figura 5.2: Rede de colaboração entre instituições entre os anos 2010 e 2015.
contendo apenas os conjuntos de vértices desejados.
5.2 Portal Web
Um portal web foi desenvolvido para apresentar os resultados para o usuário.
Foi utilizado duas bibliotecas javascript para apresentação gráfica dos resultados,
D3.js4 e amCharts5. A comunicação entre o servidor e a aplicação cliente é feita
utilizando JSON. As estatísticas são geradas em tempo real e um cache é utilizado
para armazenar os resultados, a fim de obter os dados de maneira mais rápida.
A figura 5.1 mostra a rede de colaboração entre instituições, sendo as instituições4https://d3js.org/5https://www.amcharts.com/
32
públicas, os vértices azul claro, e as instituições privadas, os vértices azul escuro.
Note que a espessura de uma aresta reflete o seu peso.
5.2.1 Intervalo de tempo
A rede de colaboração entre instituições é uma rede em evolução, pois a cada
ano novas patentes são depositadas. Por isso, esta funcionalidade foi desenvolvida
para permitir ao usuário escolher o intervalo de anos de análise da rede. A figura
5.2 apresenta a rede entre os anos 2010 e 2015.
5.2.2 Atualização da Rede
O software permite a atualização da rede a medida que novas patentes são de-
positadas. Para tal, é necessário fazer o upload de uma RPI no portal web. Depois
que a RPI é carregada no servidor, o parser extrai as patentes e salva cada uma no
arquivo correspondente ao seu ano de deposito.
33
Capítulo 6
Conclusão
Analisando os resultados, é possível concluir que o fenômeno de competição pre-
domina na rede de colaboração entre instituições depositantes de patentes dando
origem a redes muito esparsas. A competição prevalece porque a maioria dos vérti-
ces da rede são empresas privadas ou inventores, onde a concorrência é primordial.
No entanto, considerando somente os vértices públicos, é possível ver um fenômeno
forte de colaboração, pois 54% dos vértices públicos possuem arestas.
A rede apresenta uma forte interação entre vértices de classes diferentes, evi-
denciando o fenômeno de competição entre vértices privados e a colaboração entre
instituições públicas e privadas. Além disso, as instituições públicas dominaram o
ranqueamento dos vértices devido ao seus graus e os pesos de suas arestas. Por
fim, o portal web foi importante para analisar e visualizar em tempo real todas as
estatísticas da rede, sendo possível escolher o intervalo de tempo da análise.
6.1 Trabalhos Futuros
Este trabalho mediu a homofilia da rede separando os vértices em públicos e
privados. Uma outra maneira de agrupar os vértices seria de acordo com a área
de atuação da instituição, sem levar em consideração se ela é pública ou privada.
Assim, seria possível verificar se instituições da mesma área tendem a colaborar.
Uma outra maneira de analisar a base de patentes brasileira, seria criar a rede
34
de coautoria de patentes. Nesta rede os vértices são inventores e as arestas entre
dois vértices indicam que eles são coautores da patente. Isto permitiria analisar a
rede de pessoas e avaliar padrões de colaboração na produção de patentes.
35
Referências Bibliográficas
[1] BRANTLE, T., FALLAH, H., 2007, “Complex Innovation Networks, Patent Ci-tations and Power Laws”, Portland International Center, pp. 540–549.
[2] CSÁRDI, G., 2005, “Modeling innovation by a kinetic description of the patentcitation system”, Elsevier.
[3] NEWMAN, M., 2003, “Mixing patterns in networks”, Phys. Rev. E 67, 026126.
[4] NEWMAN, M., 2004, “Who is the best connected scientist?A study of scientificcoauthorship networks”, pp. 337–370.
[5] NEWMAN, M., 2010, “Networks: an introduction”. pp. 185–193, Oxford Univer-sity Press.
[6] NEWMAN, M., 2004, “Coauthorship networks and patterns of scientific colla-boration”, PNAS, v. 101 (Abril), pp. 5200–5205.
[7] ÉRDI, P., MAKOVI, K., SOMOGYVÁRI, Z., et al., 2012, “Prediction ofEmerging Technologies Based on Analysis of the U.S. Patent CitationNetwork"”, Scientometrics, pp. 225–242.
[8] STEFANO, BRESCHI, C. C., 2010, “Tracing the links between science and te-chnology: An exploratory analysis of scientists’ and inventors’ networks”,Research Policy, v. 39 (Fevereiro), pp. 14–26.
[9] YOO-JIN HAN, Y. P., 2006, “Patent network analysis of inter-industrial kno-wledge flows: The case of Korea between traditional and emerging indus-tries”, World Patent Information, (September), pp. 235–247.
36