Vous êtes sur la page 1sur 9

A General Theory of Bibliometric and Other

Cumulative Advantage Processes

Synthèse
2 ACI B
Réalisé par :
BENHMIDOU Imane
CHOUINE Kaoutar
EL GAMOUS Loubna

Page | 1

M.4.4.1 / 2019
Introduction ................................................................................................ 3
Synthèse ..................................................................................................... 3
Urne de Polya ........................................................................................... 3
L’avantage cumulatif ................................................................................ 4
Propriétés de la fonction Bêta .................................................................. 5
Le cas limite-Lotka et Bradford ................................................................. 6
Application de la théorie de l’avantage cumulatif à la loi de Lotka ........... 7
Application aux données de citation......................................................... 7
Citations en fonction du temps et du champ ............................................ 9
Conclusion................................................................................................... 9

Page | 2
L’histoire de la bibliométrie et de la scientométrie a passée par plusieurs
étapes durant son évolution en passant par les travaux de Alfred Lotka (1926),
Samuel Bradford (1934) jusqu’à celles du père fondateur Darek John de Solla Price.

Dans cette expérience le mathématicien George Polya a considéré une urne


qui contient initialement une boule rouge et une autre blanche ,puis il a commencé
un tirage successive avec remise dont lequel pour chaque tirage d’une boule de
l’une des deux boules on a l’ajout d’une autre de la même couleur. Polya a
remarquer par suite que les deux couleurs suivent la loi uniforme discret sur
{1, … , 𝑛 + 1} pour chaque tirage.

Polya a généralisé par suite ce modèle en appuyant sur 𝒂 boules blanches et


𝒃 boules rouges.

La généralisation de ce modèle montre que pour une urne qui contient


initialement une boule blanche et une rouge et au bout du nième tirage la
proportion de boules blanches dans l’urne devient :
𝑿𝒏
𝒀𝒏 =
𝒏+2
Avec :
• 𝑿𝒏 : le nombre de boules blanches dans l’urne à l’étape n.
• 𝒀𝒏 : converge presque sûrement vers une variable aléatoire uniformément
distribuée sur [0, 1].

L’importance de ce modèle réside dans le processus qu’il a fourni pour le but


de comprendre plusieurs phénomènes économiques telles que la contagion des
opinions sur le marché financière, les modèles de compétition technologique et la
localisation d’une industrie vue de l’effet cumulatif lors du déroulement de ces
phénomènes.

Page | 3
Ce modèle suppose que la population se compose d’un certain nombre des
individus, dont chacun de ces dernies est caractérisé par un numéro unique n qui
est le nombre des succès.

Le principe d’avantage cumulatif suppose simplement que les succès


engendrent aussi des succès, et il peut être illustrée dans l’exemple d’une
population d’auteurs en relation avec le nombre de citations, pour cet exemple le
nombre des succès doivent être comptés comme un de plus que le nombre de
citations. D'une certaine manière, cela revient à considérer la publication originale
en tant que première citation, et alors de compter publication comme un autre
nombre de succès. Une telle modification est relativement facile à faire après que
la théorie est développée et donc on peut supposer que le nombre réel de citations
doit être 𝒏 + 𝒌, dont n est le nombre de succès et k est une constante arbitraire.
Plus généralement, on peut définir 𝒏 = 𝒂𝒙 + 𝒃 où x est un autre état arbitraire
descripteur tel que le revenu en dollars. Considérons ensuite une population de P
individus, dont une fraction 𝒇(𝒏) est dans l'état n, où : ∑𝒇(𝒏) = 1, dont le nombre
moyen de succès est ∑𝒏𝒇(𝒏) = 𝑹. Supposons qu'un petit nombre de nouveaux
𝒅𝑷
individus dP sont ajoutés à la population, avec 𝑹. 𝒅𝑷 sont succès. est le nombre
𝑷
des nouveaux succès. Puisque ces nouveaux succès doivent être répartis
uniformément sur les succès précédents du 𝑹𝑷, il y a de nouveaux succès pour le
𝒅𝑷
par le précédent et pour la classe de 𝑷𝒇(𝒏) individus avec n succès précédents
𝑷
𝒅𝑷
pour chacun, soyez donc 𝒏𝑷𝒇(𝒏) les nouveaux succès, et donc transitions
𝑷

de ce nième état au (𝒏 + 𝟏) ième. Il doit donc y avoir 𝒏𝒇(𝒏)𝒅𝑷 sort du nième état
et là sera également (𝒏 − 1)𝒇(𝒏 − 1)𝒅𝑷 transitions en elle, de la classe inférieure
recevant son quota de nouveaux succès. Le changement du nombre des individus
dans la niéme état est :
𝒅 𝑷𝒇(𝒏)
= −𝒏𝒇(𝒏) + (𝒏 − 1)𝒇(𝒏 − 1) 𝒏>1
𝒅𝑷
= −𝒇(1) + 1 𝒑𝒐𝒖𝒓: 𝒏 = 1
Alors :
𝒅 𝑷𝒇(𝒏)
= −(𝒏 + 1)𝒇(𝒏) + (𝒏 − 1)𝒇(𝒏 − 1) 𝒏>1
𝒅𝑷
= −2𝒇(1) + 1 𝒑𝒐𝒖𝒓: 𝒏 = 1
Après développement on trouve que :

Page | 4
𝒇(𝒏) = 𝑪𝑷𝒎 𝑩(𝒏, 𝒎 + 2)
Avec B est la fonction Béta tel que 𝑩(𝒏, 𝟏) = 𝟏
• 𝑩(𝒏, 𝟐) = 𝟏⁄𝒏(𝒏 + 𝟏)
• 𝑩(𝒏, 𝟑) = 𝟐⁄𝒏(𝒏 + 𝟏)(𝒏 + 𝟐)
• 𝑩(𝒏, 𝟒) = 𝟔⁄𝒏(𝒏 + 𝟏)(𝒏 + 𝟐)(𝒏 + 𝟑)
• Etc.

La fonction 𝒇(𝒏) contient un seul paramètre 𝒎.

Dans la partie modèle d'urne à avantage cumulatif on avait 𝒎 = 𝟎.

La plus importante propriété de la fonction beta est :

𝑩(𝒂, 𝒃)– 𝑩(𝒂 + 𝟏, 𝒃) = 𝑩(𝒂, 𝒃 + 𝟏)

On a :

𝒇(𝒏) = 𝑪𝑷𝒎 𝑩(𝒏, 𝒎 + 2)

On pose 𝒃 = 𝒎 + 2 𝑒𝑡 𝒂 = 𝒏

Alors :

𝑩(1, 𝒃) = 𝑩(𝒂, 𝒃 + 1)

Pour 𝒎 > 1 on est concerné par 3 colonnes de la fonction Beta :

• 𝑩(𝟏, 𝒎) : donne le total des succès.


• 𝑩(𝟏, 𝒎 + 𝟏) : donne la taille de la population et les entrées de 𝐵(𝑛, 𝑚 + 1)
càd le nombre de membres qui ont au moins 𝒏 succès.
• 𝑩(𝟏, 𝒎 + 𝟐) : donne le nombre de membres qui ont exactement 𝒎 succès.
On a le total de la population,

On normalise la population 𝑷 en divisant par 𝑷(𝒎 + 𝟏)

Alors le nombre de succès est :

Page | 5
𝑷(𝒎 + 1)
𝑷(𝒎 + 1)𝑩(1, 𝒎) =
𝒎
Pour de grandes valeurs de 𝒏 la distribution des avantages cumulés suit la loi de
puissance inversée avec l’exposant 𝒎 + 𝟐 et la distribution cumulée est aussi une
loi de puissance inversée avec l’exposant 𝒎 + 𝟏.

Ceci caractérise plusieurs lois de science sociale ainsi la bibliométrie. Dans le cas
de la distribution de Pareto et Lotka, 𝒎 est petit et tend vers 𝟎 ce qui revient au
cas étudier dans le modèle d’urne.

On a :

𝑩(𝒏, 𝟏) = 𝟏⁄𝒏

𝑩(𝒏, 𝟏) est la série harmonique 𝟏⁄𝒏 sa somme est divergente.

La somme des résultats de 𝒑 − 𝟏 au 𝒓 ième (𝒑⁄𝒓 − 𝟏) individus est :


𝑷 𝑷 𝟏 𝟏 𝟏
𝑸(𝒓) = (𝑷 − 𝟏) + 𝑷 ( ) + ⋯+ ( ) = 𝑷 (𝟏 + + + ⋯ + ) − 𝒓
𝟐−𝟏 𝒓−𝟏 𝟐 𝟑 𝒓
Finalement :

𝑸(𝒓) = 𝑷(𝑪 + 𝐥𝐨𝐠 𝒆 𝒓) − 𝒓 (∗)

Si 𝒓 > 𝒆𝒄 = 𝟏. 𝟕𝟖𝟏 𝑒𝑡 𝒓 < 𝑷 𝑎𝑙𝑜𝑟𝑠 (∗) 𝑑𝑒𝑣𝑖𝑒𝑛𝑡 :

𝑸(𝒓) = 𝑷 𝐥𝐨𝐠 𝒆 𝒓

Alors le total de succès résultant est proportionnel au logarithme du rang du haut


d’où en dérive la distribution de Bradford. Dans sa forme la plus simple, à deux
zones, il est indiqué que la moitié des succès sont dus à l’élite au score le plus
élevé comprenant √𝑷 des individus.

𝑸(𝒓) 𝒍𝒐𝒈𝒓
=
𝑸(𝑷) 𝒍𝒐𝒈𝑷

Page | 6
Il s’avère que c’est précisément la même base mathématique pour la loi de Price
qui affirme, sur la base de la distribution de Lotka, que les meilleurs √𝑷 auteurs
vont produire au moins la moitié du total des articles publiés par la population 𝑷.

Les données originales de Lotka, testées uniquement pour n relativement petite,


basée en partie sur les productivités à vie et en partie sur les indices de dix ans.
D'une certaine manière, c'est plutôt trompeur, car on est amené à supposer que la
loi de 𝟏⁄ 𝟐 peut être identifiée avec le cas limite de la Distribution de l’avantage
𝒏
cumulatif pour 𝒎 = 𝟎, pour laquelle :
𝟏
𝑵 (𝒏) =
𝒏 (𝒏 + 𝟏)

La valeur réelle de m est susceptible de varier avec l'échantillonnage utilisé dans


un cas particulier. Pour les données modernes on doit y avoir beaucoup
d’incertitude car nous n’avons pas encore un modèle ou théorie adéquat pour
l'attribution de crédits, le cas des articles de collaboration multi-auteurs; il reste
aussi quelques doutes quant à l'effet de la durée de vie finie sur la productivité de
l'auteur.

C’est exactement ce à quoi on pourrait s’attendre dans un processus d’avantage


cumulatif avec m proche de l’unité; cela correspond en fait au modèle d'urne où
l'on commence avec une boule rouge de succès et deux noirs pour un échec. Les
deux tiers des premiers choix aboutiront à un échec et à la fin de ce "jeu" de
publication, pour le tiers qui réussira, il y aura une chance égale de remporter un
deuxième succès, et par la suite, la chance s'approchera de l'unité de manière
asymptotique. Il semble donc que, dans tous les aspects qualitatifs et
quantitativement, la répartition de l’avantage cumulatif et le processus tiennent
compte de la répartition des revues et de la productivité des auteurs.

L’application aux données de citation était la plus rigoureuse dans le principe


de l’avantage cumulatif. Les données étaient riches mais les constructions
théoriques fondamentaux étaient rares. Price a signalé que le nombre de papiers
cités n fois dans une année suivait une loi de puissance inverse (loi Zipf) avec un

Page | 7
exposant compris entre 2.5 et 3.0, et I. Yermish a montré qu’un exposant de 3,036
donne une corrélation de 0,9937 tandis que Charles J. Crowley, a supposé qu'une
distribution binomiale négative aurait les propriétés requises, et ceci est testé sur des
données très limitées. Après cela Brookes a montré que l'échantillonnage d'une
distribution hyperbolique tronquée pouvait être expliqué par un analogue du
théorème de Taylor.

La publication d'un document pourrait être considérée comme sa première


citation «succès». Si ce n'est pas le cas, la valeur de n dans la fonction Bêta doit être
considérée comme :

𝒍𝒆 𝒏𝒐𝒎𝒃𝒓𝒆 𝒅𝒆 𝒔𝒖𝒄𝒄è𝒔 𝒅𝒆 𝒄𝒊𝒕𝒂𝒕𝒊𝒐𝒏𝒔 + 𝒌

𝒌 : est un paramètre différent de l'unité.

Le nombre maximal de succès par article est égal à la population totale des
articles. Il s'ensuit que le nombre moyen de succès, doit être de type 𝑪 − 𝐥𝐨𝐠 𝒆 𝑷.

Pour un indice de citation réel, il faut tenir compte du fait qu'il s'agit d'un
échantillonnage de deux manières distinctes :

• Premièrement, il est basé sur une sélection parmi les revues les plus
importantes
et les plus citées.

• Deuxièmement, il n’est fondé que sur une plage supposée être en croissance
exponentielle à un taux K.

Si le nombre de références de revues par article source est égal à 𝑹, il en résulte que,
dans un index de citation sur un an, il y aura 𝑲𝑹 références. Étant donné que dans la
distribution des avantages cumulatifs, la moyenne de 1 + 1⁄𝒎 succès/item, implique
que le nombre moyen de citations 𝑴 est égal au moins 1⁄𝒎 . donc un indice de
citation d’un an doit être proche de l’unité et qu’il découlera donc de l’équation :

𝑩(𝒂, 𝒃) = (𝒃 − 1)! 𝒂−𝒃

Avec 𝒂 𝒆𝒕 𝒃 paramètres de la fonction Beta.

Pour la distribution cumulative des avantages, le nombre d'articles cités est


donné par :
Page | 8
𝑺(𝟐) = 𝑩(𝟐, 𝒎 + 𝟏) = 𝟏⁄(𝒎 + 𝟏)(𝒎 + 𝟐)

et le nombre de citations par :

𝑸(𝟐) = 𝑩(𝟐, 𝑴) = 𝟏⁄𝒎(𝒎 + 𝟏)

La distribution des avantages cumulatifs a été dérivé sans référence explicite


au temps en tant que variable et contrairement à des fonctions à paramètres
multiples comme le binôme négatif. Elle dépend uniquement de la taille de la
population et du nombre moyen de succès par élément. L'historique des citations
d'un article dépendra uniquement de la taille de l'impulsion initiale, et puisque :

𝒅𝒏 = 𝑲𝒏𝒅𝒓

Alors :

𝒏 = 𝒏0 𝒆𝑲𝒕

Où 𝒕 : est le temps écoulé depuis l'impulsion initiale d'absence de citations.

La variation temporelle est assez différente et suit un déclin logistique


typiquement en forme de S avec le logarithme du temps comme variable
indépendante. La plupart des citations sont des articles récents, et il est douteux que
l’effet d’immédiateté soit dû à une obsolescence rapide à courte échéance.
L'obsolescence semblerait être un phénomène essentiellement à long terme,
semblable à l'effet de la durée de vie limitée des auteurs sur la réduction de la
productivité de la publication. Il est immédiatement évident que les documents très
cités tomberont plus lentement avec le temps écoulé que les documents moins cités.

Pour conclure, l’application de cette théorie des processus d’avantage


cumulatif et bibliométrique résoudra autant de problèmes qu’elle sera résolue et
exigera beaucoup plus de tests empiriques et de mathématiques statistiques
rigoureuses en expression. L’injection d’une version d’une théorie sous-jacente
de cette nature résoudrait le problème de ce qui est mesuré et compté dans la
recherche bibliométrique et dans les autres domaines des sciences sociales où un
avantage cumulatif semble fonctionner.
Page | 9

Vous aimerez peut-être aussi