人們習慣用史料來(lái)描述文學(xué)史的高峰狀態(tài),而在當今大數據時(shí)代,我們或可嘗試用大數據來(lái)顯示和驗證,并透視數據背后的文學(xué)史意義,進(jìn)而反思數據存在的問(wèn)題和展望未來(lái)努力的方向。唐宋詩(shī)詞世界華茂繁榮,大數據可帶我們領(lǐng)略其中新的風(fēng)采。
唐宋詩(shī)詞的多個(gè)“第一”
唐詩(shī)是中國詩(shī)歌史上第一座高峰。據統計,東漢到隋末近六百年,詩(shī)歌總共才五千余首,而到唐代,詩(shī)歌第一次超過(guò)萬(wàn)首并直接跨越到五萬(wàn)多首,達到前所未有的高峰。唐詩(shī)比之前的八代詩(shī)增加了七倍多,詩(shī)人由六百余位增加到三千余位,詩(shī)人和詩(shī)作都達到前所未有的量級。唐詩(shī)歷經(jīng)三百余年,其頂峰在盛唐。其時(shí)詩(shī)人五百余位、詩(shī)作近八千首。依據詩(shī)歌在歷代選本中的入選頻次、被歷代詩(shī)論家品評的頻次、被后人追和的頻次和當代學(xué)者研究的頻次、被網(wǎng)頁(yè)著(zhù)錄及評論的頻次等數據加權計算,一定程度上可評估一首詩(shī)的影響力。通過(guò)這種可量化的計算,我們可將影響力位居前列的視為名篇。在唐詩(shī)百首名篇中,盛唐占59首。而唐詩(shī)的十大名篇,盛唐更獨占8首。按名篇數量排列出的唐代十大詩(shī)人,盛唐占6位:杜甫、李白、王維、王昌齡、孟浩然和岑參。
宋詞是中國詞史上第一座高峰。詞人近一千五百位,詞作超兩萬(wàn)一千闋。較之唐五代,宋詞用調增加了七百余種,詞人詞作都增加了十多倍,表現出詞體的豐富、整體面貌的繁榮。唐五代詞人中,唯溫庭筠、馮延巳、李璟、李煜四家有詞集傳世,而宋代有三百多家有詞集流傳。詞人有詞集傳世,意味著(zhù)作品多、知名度高、社會(huì )需求量大。數據顯示,宋詞在唐五代之后已達到高潮,元祐時(shí)期更達峰值。其時(shí)詞人近二百位、詞作約四千闋,比宋初和慶歷兩個(gè)時(shí)期的詞人詞作總數還多出一倍有余。在百首宋詞名篇中,元祐時(shí)期占27闋,名列宋詞六個(gè)階段的首席。
人們習慣以宋詞作為宋代文學(xué)成就的代表,其實(shí),宋詩(shī)也是重要的一部分。數據顯示,宋代詩(shī)人詩(shī)作的數量超越唐詩(shī)而達到新高度,詩(shī)人九千多位,詩(shī)作二十五萬(wàn)余首,是唐詩(shī)作品量的五倍多。值得注意的是,宋詩(shī)的頂峰也在元祐年間,其時(shí)詩(shī)人一千六百余位,相當于前兩個(gè)時(shí)期詩(shī)人數量的總和;詩(shī)作五萬(wàn)余首,比前兩個(gè)時(shí)期的詩(shī)作總和還多出七千多首;宋詩(shī)的十大名篇,此時(shí)獨占5首;蘇軾、黃庭堅、王安石等影響深遠的大詩(shī)人都生活和創(chuàng )作在這個(gè)時(shí)期。近人陳衍論詩(shī),說(shuō)唐宋詩(shī)史上有三個(gè)輝煌的高峰時(shí)段,所謂“上元開(kāi)元、中元元和、下元元祐”,數據印證了他的判斷。
從個(gè)體詩(shī)人來(lái)看,唐詩(shī)宋詞里誰(shuí)的作品最多?數據顯示,白居易名列唐詩(shī)作品量的榜首,詩(shī)作近三千;杜甫和李白緊隨其后,都超過(guò)千首大關(guān)。宋詞中辛棄疾的詞作量位居第一,有六百余闋,其次是蘇軾、劉辰翁。宋詩(shī)的篇數,則由陸游稱(chēng)雄,凡九千多首,其次是劉克莊和楊萬(wàn)里。
作品多的詩(shī)人詞家,是否影響力大、知名度高?根據綜合影響指數排名,唐代詩(shī)人影響力第一的是杜甫,其次為李白、王維,而作品量居第一的白居易,影響力排在十名之外。宋代詞人作品量和影響力第一的都是辛棄疾,蘇軾和周邦彥分別居第二、第三。高居宋詩(shī)影響力榜首的是蘇軾,作品量雄居榜首的陸游緊隨其后。
“第一”背后的文學(xué)史意義
數據不僅標示誰(shuí)第一、誰(shuí)領(lǐng)先,還蘊含更深層的文學(xué)史意義,可以探究其背后隱藏的歷史過(guò)程和變化動(dòng)因,揭示規律性認識。比如,通過(guò)檢視和分析唐詩(shī)名篇崔顥《黃鶴樓》的各種數據,可以發(fā)現第一接受者李白的評價(jià)和創(chuàng )作比拼發(fā)揮了重要作用?梢(jiàn),除自身的藝術(shù)含量外,故事傳播和意見(jiàn)領(lǐng)袖的評價(jià)也是名篇生成的重要因素。
數據能具體顯示詩(shī)人詞家名聲的高下。提到唐詩(shī)宋詞的名家,人們習稱(chēng)“李杜”“蘇辛”,似乎李優(yōu)于杜、蘇勝于辛。但綜合影響指數表明,杜甫高于李白、辛棄疾強于蘇軾。更令人意外的是,最受追捧的詞人不是蘇辛而是周邦彥。在一百首和三百首宋詞名篇中,周邦彥各占15首和40首,占有率遠高于蘇、辛。王國維說(shuō)“詞中老杜,非先生(周邦彥)不可”,堪稱(chēng)卓識。周濟《宋四家詞選》也推周邦彥為學(xué)詞的最高典范,所謂“問(wèn)途碧山,歷夢(mèng)窗、稼軒,以還清真之渾化”,數據印證了周濟的眼力。
數據可以明確展示名篇名家影響力的時(shí)代變化。宋明以來(lái),崔顥《黃鶴樓》詩(shī)和蘇軾《赤壁懷古》詞的影響長(cháng)盛不衰,故分別成為唐詩(shī)宋詞的第一名篇。而陳子昂《登幽州臺歌》、張若虛《春江花月夜》等聲名卓著(zhù)的名作,明清以前影響甚小,到近現代才廣受注目,故綜合影響力排名靠后。岳飛《滿(mǎn)江紅》、陸游《卜算子·詠梅》等也都是到現當代才被發(fā)掘出的名篇。周邦彥的影響力,在明清時(shí)期的詞壇遠大于蘇辛,只是到現當代由于文學(xué)價(jià)值觀(guān)念的變化才下滑落后。
數據還反映出詩(shī)人影響力與作品量的關(guān)系。杜甫、李白的詩(shī)作量名列前茅,辛棄疾、蘇軾的詞作量也是第一、第二。由此可以說(shuō),影響力大的詩(shī)人,其作品量也很大,但不能說(shuō)作品量大就一定影響力大。白居易詩(shī)作量位居唐代詩(shī)人之首,綜合影響力卻沒(méi)進(jìn)入前十名。陸游的詩(shī)篇比蘇軾多出兩倍,綜合影響力卻在蘇軾之后。由此可見(jiàn),精品名作多才是成為影響力大的詩(shī)人的決定性因素。宋人趙汝騰《石屏詩(shī)序》說(shuō):“詩(shī)之傳,非以能多也,以能精也。精者不可多,唐詩(shī)數百家,精者才十數人,就十數人中選其精者,才數十而已。惟少陵、謫仙能多而能精,故為唐詩(shī)人巨擘也!碧K、辛的精品名篇量也印證了趙汝騰的判斷。
數據的“不可為”和“可為”
雖然數據能在一定程度上描述顯示文學(xué)史的發(fā)展面貌和進(jìn)程,揭示隱藏在歷史背后的真相與意義,但數據也有明顯的局限性。一是效度有限,只能說(shuō)明文學(xué)史的部分問(wèn)題,而無(wú)法有效解決所有問(wèn)題。二是信度受限,無(wú)論是人工挖掘還是機器自動(dòng)提取,受人的認識水平和技術(shù)水平的制約,數據的信度會(huì )有優(yōu)劣高下的差異。
由于指標種類(lèi)少,目前衡量名篇名家的數據還不充分完備,尤其缺少內質(zhì)型數據,因此需要持續不斷地挖掘和充實(shí)。挖掘數據的難度,不僅在于到哪里找數據,更在于要找哪些數據。文學(xué)史上從來(lái)沒(méi)有數據意識和數據存量,什么樣的數據對衡量一個(gè)時(shí)代或一個(gè)時(shí)期的文學(xué)繁榮程度、評價(jià)作家作品的優(yōu)劣高低有用有效,這既是實(shí)踐操作問(wèn)題,也是理論認識問(wèn)題。
大數據時(shí)代的文學(xué)數據,需要分類(lèi)分層建立起文學(xué)史數據的指標體系,以確保數據的信度和效度?梢蕴剿骱陀懻摚阂粋(gè)時(shí)代或一個(gè)時(shí)段文學(xué)的繁榮狀態(tài),除了用作家作品的數量增長(cháng)來(lái)衡量,還有哪些量化指標、特別是內質(zhì)型指標可以體現?在創(chuàng )作主體維度,文學(xué)群體、文學(xué)流派的數量和規模是否應該作為衡量文學(xué)繁榮的指標?又該如何測度個(gè)體作家和文學(xué)群體或文學(xué)流派的藝術(shù)貢獻、文學(xué)史地位?在作品文本維度,如何衡定其思想情感含量和藝術(shù)審美含量?也許應該考量以下三個(gè)層面:形式層面,體裁體式的創(chuàng )新度、豐富度;內容層面,表現主體內在精神世界和外在社會(huì )生活世界的深廣度;藝術(shù)層面,表現技巧的難度和藝術(shù)表現的完美度等。有了完整的指標體系,才有目標和途徑去尋找發(fā)掘數據,才有可能借助人工智能技術(shù),讓計算機自動(dòng)分析提取數據,不斷擴大數據的種類(lèi)和體量。在此基礎上,通過(guò)計算機自動(dòng)提取獲得海量數據,不斷滿(mǎn)足大數據時(shí)代學(xué)術(shù)研究的需求。
。ㄗ髡撸和跽座i,系國家社科基金重大項目“唐宋文學(xué)編年系地信息平臺建設”首席專(zhuān)家、四川大學(xué)文學(xué)與新聞學(xué)院講席教授)