【放在藏学刊物一栏】
《中国藏学》是我国藏学研究的权威性学术期刊,它的创刊标志着我国藏学研究达到了一个新的高度。自创刊以来,《中国藏学》吸引了一批优秀作者,发表了很多有独到见解、有创意的好文章。但是我们注意到很少有人对《中国藏学》创刊以来的论文作者情况进行分析研究,对作者的著述能力、地域分布、年龄结构等等更是缺乏整体上的认识。本文应用文献计量学原理,对《中国藏学》的作者著述能力即论文作者数量与论文数量的关系进行分析研究,在此基础上对《中国藏学》的论文作者作出宏观上的描述,这对了解藏学研究队伍的情况以及论文产生的规律有着积极的意义。
一、 引 言
文献计量学三大定律之一的洛特卡定律是文献计量学、科学计量学、情报计量学中描述论文——著者科学生产频率分布的重要定律。这一定律经过几十年的广泛验证研究,得到了世界图书情报界的一致公认。该定律描述了作者数量与论文数量间的分布关系,这种关系遵循倒数平方规律,即在论文数x与作者频率f(x)之间可用一般形式f(x)=c/x2(c为常数)来表示。并且进一步表述为:撰写x篇论文的作者数yx与每一个著者所著论文数x成反比关系。即
xn·yx=c (1)
式中yx是某一学科中著x篇论文的作者数,n与c是对应这些特定数据集合的两个常数。
二、统计分析
1、数据的收集
本文资料来自于我馆《藏学文献数据库》(期刊部分)中的《中国藏学》数据,起止年代从1988年至1999年。收集数据时动态、索引、书讯等内容不在统计之列。沿用洛特卡仅取第一作者的方法,共统计出作者409人,发表论文641篇。其论文数x与作者数y的数据见表1。
表1 论文数对应的作者数分布
x
1
2
3
4
5
6
7
13
y
296
55
30
12
7
7
7
7 2、指数n的计算
为了估计上式(1)中的常数n,需将式(1)稍作变换,两边取对数后变成logx与logy的直线关系,即nlogx+logy=logc (2)
根据(2)式可以估算n值最普通使用的方法,最小=乘法,其公式:
n=N-ΣxY-ΣxΣY/NΣX2-(Σx)2 (3)
式中N为被考察数据对的数量,X为logx;Y为logy。
据此,利用表1的数据可以建立表2,将表2中的有关数据代入式(3)计算,得到n=2.3675
表2 指数n计算用数据表
x
y
x=logx
y=logy
XY
X2
1
296
0
2.4713
0
0
2
55
0.3010
1.7404
0.5239
0.0906
3
30
0.4771
1.4771
0.7047
0.2276
4
12
0.6021
1.0792
0.6498
0.3625
5
7
0.6990
0.8451
0.5907
0.4886
6
7
0.7782
0.8451
0.6577
0.6056
7
1
0.8451
0
0
0.7142
13
1
1.1139
0
0
1.2408
Σ
409
4.8164
8.4582
3.1268
3.7299
3、C值的计算:
对C值的计算,美国情报学家帕欧在数学家的协助下推导出一个n不为2时逼近c值的计算公式:
19 1 1 1 n
C=1/ Σ x n + 2×20n + (n-1)20n-1 + 24×19n+1 (4)
x=1
式中当指数n=2时,c=0.6079,当n≠2时,误差可以忽略不计。将n=2.3675代入(4)式中,计算得c=0.7151。因此,可以得出《中国藏学》的论文与著者的洛特卡分布为:
f(yx)=0.7151/ x2.3625
4、利用K—S检验进行拟合良好性检验
为了比较理论分布与实际分布的一致程度,必须还要进行非参数假设检验。据研究,使用K—S检验验证洛特卡定律比其它检验方法具有更大的优越性。K—S检验的实质是计算累积观察频率分布函数Σfo(yx)和累积理论计算频率分布函数Σfe(yx)的差值,从中选出最大差值Dmax;若Dmax大于临界值,则理论和实际有显著性差异,反之,不能认为理论与实际有显著性差异。根据f(yx)=0.7151/x2.3675可以计算出作者理论累积频率Σfe(yx),根据表1则可以计算出作者实际累积频率Σfo(yx)。具体结果见表3。
表3作者理论累积频率与实际累积频率值表
x
y
fo(yx)
fe(yx)
|fo(yx)-fe(yx)) |
1
296
0.7237
0.7151
0.0086
2
55
0.8582
0.8537
0.0045
3
30
0.9315
0.9068
0.0247
4
12
0.9608
0.9337
0.0271
5
7
0.9779
0.9495
0.0284
6
7
0.9950
0.9598
0.0352
7
1
0.9974
0.9669
0.0305
13
1
0.9998
0.9685
0.0313 Dmax=0.0352当显著水平为0.01时,临界值为D临=1.63/√Σy=1.63/√409=0.0806
因此,Dmax=0.0352<D临0.0806,这样就有把握地认为《中国藏学》的论文作者分布服从洛特卡分布f(yx)=0.7151/x2.3675。
三、结论分析
1、通过统计分析表明,《中国藏学》的作者数、论文数是服从洛特卡分布的。《中国藏学》杂志创办短短12年的时间内,其数据量就能体现出这种规律。而一个学科领域内论文作者是否服从洛特卡分布是这一期刊办得是否成功的一个重要标志。这说明《中国藏学》的办刊原则是正确的。
2、洛特卡定律产生于20世纪20年代,当时的论文作者合作现象比较少。对《中国藏学》12年的统计结果表明,论文的作者合作率约为11%,和洛特卡当年所处时代的作者生产情况比较相似,多数论文由作者一人完成。因此《中国藏学》处理合作者时只取第一作者对实际情况影响较小。
3、n=2.3675人,说明论文主要集中来自于低产作者,高产作者较少,表一的统计中发表4篇论文以上的作者有28人,只占作者总数的6.85%也可以说明这一点。从洛特卡分布c=0.7151中同样反映出了《中国藏学》大多数是写1篇论文的作者,一次性论文作者达71.51%。折射出《中国藏学》刊载论文的内容比较多样化,说明该刊不仅拥有一批老作者,更注意发现培养新作者,体现出了藏学研究的蓬勃繁荣,新人倍出。
4、根据文献学家普赖斯的推论:“有10%的杰出科学家发表的文章,为所有文章总和的一半”来分析《中国藏学》的论文作者,当文章总和一半时,作者比例达28%。虽然《中国藏学》的作者队伍已经形成且初具规模,但与普赖斯的推论仍有一定偏离。我们不排除作者其它途径的著文情况,却可以推论出:(1)藏学研究这一学科还比较年青,正处于学科的发展阶段,作者更替频繁。(2)《中国藏学》的作者队伍中,由于创刊时间短,目前特别杰出的作者尚少,但是已有高产作者出现,从表1的统计中就可以看出这一点,随着时间的推移,将会有其他高产作者出现。(3)论文作者的低合作率显示其论文的理论性强于实践性,理论研究的难度则又导致了作者的低产。(4)其他相关期刊的相继创刊吸引了一部分作者,使重复性发文的作者相对减少。
参考文献:
丁学东 《文献计量学基础》北京大学出版社1993年9月。
王崇德 《文献计量学教程》南开大学出版社1990年6月。
娄策群 《社会科学评价的文献计量理论与方法》华中师范大学出版社1999年2月。
李 华 《情报科学》论文作者的洛特卡分布,《情报科学》1992年第6期。
(原载)