2026年6月15日下午,英国皇家艺术院院士常向群教授在中国少数民族研究中心,围绕“中华民族多元一体格局的社会基础——基于《费孝通全集》语料库-AI协同分析的研究”进行专题讲座。讲座由中国少数民族研究中心王丹教授主持。

一、研究范式总述:语料库、AI与人工判断的协同路径
常教授首先阐明本研究以《费孝通全集》20卷电子化语料库为根基,系统阐释该语料库的三大独特性:一是跨越80余年的连续性思想文本体系,涵盖中学写作、早期田野调查至晚年理论反思,具有规模大、完整性高的特点;二是原创研究与译著并存,既呈现外来理论输入,又揭示其在中国经验中的转化与再生成过程;三是高度思想连续性,为追踪概念起源、演变与理论成型提供不可替代的历时性视角;进而提出本次讲座将围绕五个递进问题展开:语料库—-AI-人工判断研究范式简介、费孝通民族思想的基本观念、中华民族多元一体格局的形成机制、与国内外相关研究的比较分析,以及该范式对社会科学的方法论贡献,由此构建起逻辑严密、层次清晰的整体论证框架。
二、语料库方法论溯源与演进:从索引阅读到AI赋能的学术实践
常教授深入回溯自身研究经历,以35年前赴英访学时发现西方学者“从后往前读”(即依赖索引Index)的阅读习惯为起点,剖析传统索引法虽提升效率却受限于单本研究与语境割裂;继而梳理电子文本时代关键词检索的进步与局限——可定位词频却难捕捉语义变迁及其结构性关联;再以2010年费孝通诞辰百年纪念活动为转折点,讲述获赠20卷纸质全集后,面对西方学者翻译《乡土中国》却遭遇“读不懂”困境的反思,指出问题本质非单纯语言障碍,而是思维方式、文化逻辑与理论语境的根本差异;由此自然引出语料库建设的必要性——通过中英文双语语料库支撑精准翻译与跨框架理解,并以“中国式现代化”概念的语料库实证发现(如1946–1947年思想雏形与1979年10月明确表述)为例,具象化展示语料库如何实现“精准定位原话+还原历史语境+揭示概念演化”的三维突破,完成从文献工具到知识生产基础设施的范式转变。
三、语料库与AI的辩证关系:优势互补与人工判断的核心地位
常教授对研究方法进行了批判性反思,明确指出语料库虽能整合分散材料、呈现词频/搭配/时间分布等客观数据,但仅停留于描述层面,无法自动生成理论或判定语境关联;AI则在模式识别、结构整合与低频语料挖掘上提供了一种新的可能,如区分“民族”的过程、关系、结构等多维用法,但其本质局限在于仅能识别模式而无法界定概念边界、提供理论解释,尤其在“中华民族多元一体”这类低频语料(全集仅118次)场景下更显力不从心;因此,常教授特别强调“人工判断”绝非辅助环节,而是贯穿概念界定、结构划分、阶段分析与理论建构全过程的决定性力量——语料库提供语料基础,AI辅助识别组织,人工判断负责将结构升华为理论;最终凝练出“语料库—AI—人工判断”这一从数据进入结构、再由结构进入理论的连续性知识生产路径,确立其作为新型社会科学范式而非简单工具组合的根本属性。
四、费孝通民族思想的语料库解构:从词频统计到结构生成
常教授以“民族”一词在全集中的6556次出现为切入点,首先剥离第18–19卷5部译著中的257次干扰项,聚焦费孝通原创使用的5799次;继而运用语料库三大核心功能(Wordlist词频列表、Keywords关键词对比、Concordance检索行)展开多维分析:通过词频分布确认“民族”为全集高频核心概念,遍及除第7卷外所有卷册;通过检索行观察其与“国家”“社会”“地区”等词的稳定共现,揭示其嵌入关系网络的本质;通过左右语境(Left/Right Context)分析,辨析“少数民族/汉族”(差异描述)、“民族关系/民族地区”(交往互动)、“我们国家人民共同”(整体认同)、“民族问题/民族政策”(治理对象)等四类功能语义;再结合词素(Word Sketch)分析,确认其从零散语境使用逐步凝结为稳定结构表达的演化轨迹,最终得出结论:费孝通的民族思想并非静态概念,而是依托差异、关系与整合三重维度,在具体语境中动态展开并最终升华为“区域—多元—一体”的整体性理解。
五、费孝通民族思想的理论转向:从分类比较到关系结构的范式变革
常教授将费孝通原创思想置于学术史坐标系中进行深度比较,首先对照其翻译的5部经典译著(《社会变迁》《文化论》等),指出译著作者普遍采用分类、比较、描述的方法,将民族视为孤立群体或区域单位,关注差异而忽视联系,呈现“分散的概念状态”;继而对比经典民族理论(如国家建构、现代性视角),肯定其理论建构高度,但指出其重心仍在民族认同与国家共同体形成;在此基础上,精准提炼费孝通的双重转向:方法论上,从译著的“分类比较”转向“关系结构分析”;问题意识上,从“民族之间有何差异”转向“民族之间如何发生联系”;并进一步揭示其生成机制——民族通过接触、交往、融合逐步形成稳定共同体,由此构建起“经验—关系—结构—理论”的完整分析链条,使民族思想超越描述性范畴,指向“民族关系如何形成整体”这一根本命题,为“多元一体格局”提供坚实的思想基石。
六、中华民族多元一体格局的语料库实证:概念起源、演化与一词两义
常向群教授聚焦核心概念“中华民族多元一体”的实证分析,首先以语料库量化呈现其稀缺性——全集仅372次提及“中华民族”,其中118次为“多元一体”直接组合,属典型低频语料;继而通过Plot分布图揭示其历史性断层:第一卷(1934–1935年清华硕士论文)集中出现,实为史禄博指导下的人种学研究语境;第八卷(《访美掠影》)则首次赋予其现代政治共同体意涵,与“我们”“整体”“国家”等词稳定共现;再通过Set人工标注法,将118条语料细分为A类(85条,严格绑定“中华民族”)、B类(33条,拓展至“文明”“世界秩序”等普适维度),确证“一词两义”现象——A类为描述中国多民族实体的本体性概念,B类则升华为具有人类学普遍意义的分析工具;最后结合Distribution(第13–17卷集中爆发)、Pattern(“中华民族”前置、“格局”后置的固化句法)、Word Sketch(高频组合均指向“格局”)等多重证据,严谨论证“中华民族多元一体格局”已固定为高度稳定的学术术语,其提出与发展脉络亦获得历史性检验。
七、方法论反思:语料库的科学性、局限性与AI的协同边界
常教授转入对研究方法本身的元反思,充分肯定语料库方法的科学价值:基于客观量化数据,可系统揭示概念全貌、分析演化过程、验证人工判断,且结果可重复、可验证,为人文社科提供可靠新范式;同时坦承其固有局限:高度依赖人工干预(如6000余条民族语料需逐条翻页、笔记、核对),易受主观判断误差影响;进而辩证审视AI角色——在民族等高频语料中可高效识别模式、组织结构,但在“多元一体”等低频场景下易忽略关键信息,甚至产生误导性概括(如用豆包AI处理结论PPT时,表面科学美观却隐匿分析过程);由此明确AI定位:非替代人工,而是优化工具——当数据充沛时借力AI提效,数据稀疏时回归人工精读;并以早年小样本社会支持研究(300案例/180变量)开发SP5统计包为例,强调方法选择须以“最大效率发掘所需成果”为根本导向,警惕技术万能论,要坚守研究者主体性。
八、社会基础的理论深化:从格局描述到生成机制的知识重构
常教授回应学界关切,深入阐释为何在“多元一体格局”后必须强调“社会基础”,指出若止步于格局描述,仅完成“是什么”的表层回答;而“社会基础”旨在追问“如何形成”的深层机制,即将抽象格局转化为可观察、可验证的社会关系结构;据此提出三重内涵:其一,多元一体是社会运行的结果而非观念想象,根植于经济交往、人口流动、制度互动、日常往来等真实连接(如茶马贸易、边疆移民、跨族婚姻);其二,费孝通方法论始终立足社会生活,从大瑶山村落、江村经济到民族关系、国家共同体,构成“微观社区—区域社会—国家文明”的连续性积累链条;其三,语料库高频词“交往”“往来”“结合”“接触”等,直接印证其理论重心在于社会结构而非纯意识认同;最终指出,“社会基础”是将结构概念转化为生成机制的关键一步,使研究从静态格局分析转向动态关系演化,真正实现对中华民族何以“多元”又能“一体”的历史性、整体性解读。
九、学术权威的数字重构:计算驱动的新知识生产伦理
常教授将讨论提升至知识论高度,剖析语料库-AI-人工判断范式对传统学术权威的解构与重建:传统权威源于个体记忆(百科全书式大脑)、期刊等级与学术圈层;而新权威源于可计算、可验证、可重复的“计算性权威”——包括规模计算(20卷、1700万字的整体性而非局部引用)、分布计算(概念边界、整体性、关系网络的量化界定)、轨迹计算(概念发生、转向、稳定化的历时性建模);其本质是使开放的思想体系摆脱教学科研固化的遮蔽,通过反复计算与在线验证焕发文本本有活力;最终,新权威的合法性不再依附于身份标签,而取决于研究结论能否经受他人独立验证与持续挑战,从而实现学术民主化——学生可推翻教师,边缘研究者可挑战主流共识,知识生产回归“真理性”本身,这正是数字人文赋予社会科学最深刻的方法论变革。
十、对谈与评议:跨学科对话中的方法论共鸣与未来展望
在讲座评议环节,中国少数民族研究中心黄子逸老师作为与谈人高度评价了讲座的双重知识意蕴:既系统传授语料库操作方法论,又刷新对费孝通民族思想的认知,尤其“一词两义”的发现凸显了数字人文对经典研究的不可替代价值;继而结合自身研究经历(如追溯“绅士”概念与韦伯理论关联、发现费孝通材料对列维-斯特劳斯的影响),深切体认语料库对克服传统目录学局限、实现跨文明对话的重大意义;并提出关键问题:语料库与大语言模型(LLM)的本质区别何在?AI在语料库分析中应处何种位置?常教授回应强调语料库是结构化分析工具(需分词、格式转换),而LLM是生成式模型,二者目标迥异;当前AI尚不能替代语料库分析,但可作为后处理工具;未来方向是构建共享社科语料库平台,降低技术门槛,推动方法普及。在之后的讨论中祁之力老师、王丹老师则从计算机科学、民族学、社会学角度延伸讨论,共同确认该范式既能与经典大师进行对话,亦能回应当代全球性议题,标志着中国学术正以扎实方法论自信走向世界知识体系中心。
整理人:王帅 国家安全研究院博士