史上最严中文真实性评估 其它全部不及格 OpenAI o1第1豆包第2 新的大语言模型,LLM,评估基准对于跟上大语言模型的快速发展至关重要,近日,淘宝天猫集团的研究者们提出了中文简短问答,ChineseSimpleQA,,这是首个全面的中文基准,具有,中文、多样性、高质...