在高校扎堆的北京北三環黃金地段,海淀文教產業園其實不那么打眼兒,但卻擅長收攬“金種子”入駐,創業公司Magic Data就是其中的一位了。
僅看名字,不難看出Magic Data的業務:數據!這家公司成立至今不到7年,從不到10人擴張到100余人規模,客戶遍布全球200家頭部大廠,5年內營業收入突破了一個小目標(億元),成為AI語音數據服務圈的第一梯隊……在這其中,有一個人功不可沒。
她就是Magic Data創始人兼CEO張晴晴。
張晴晴身上有很多社會化的標簽:女博士、創業先鋒。拋開這些,在與她1個半小時的交談中,我更多能明顯感受到她對于事業的激情與執著,因此你什么問題都能問,她什么也都能接的住。后來我才發現,這本來就是她的日常之一,在個人視頻號里經常分享各種觀點:關于數據、關于AI、關于ChatGPT、創業&科研、ToB服務、管理、IT女性,等等,科普性極強。
所以你很容易在AI的圈子里,看到張晴晴的分享。就像你很難在AI的賽道里,不討論數據一樣——因為說到底,張晴晴的成長,也伴隨著中國人工智能產業的成長。
時間調回到約20年前,人工智能非常不火,不火到學這個專業的大學生可能一畢業就面臨失業,甚至大學里沒有真正教AI的老師,還得從通信專業里“借”老師,張晴晴打趣道:“人工智能的前身可能是通信”??蓞s在那時,張晴晴對語音識別萌生了興趣。
大三那年,她偶然選修了一門課叫做“語音數字信號處理”,學習人的發音機理,再把發音過程通過信號建模出來,做成語音合成——“我覺得這特別有趣。”她說。
后來在保研過程中,張晴晴一心想繼續學語音信號處理,恰巧看到中科院在招生,就毫不猶豫報了名。最終結果是,她在北郵通信學院600多個報名的學生中脫穎而出,以第7名的成績被保送到中科院聲學研究所,師從中科院語言聲學與內容理解重點實驗室教授顏永紅。
再之后,張晴晴成為實驗室中最年輕的副高,并且獲得了2014年度中科院杰出科技成就獎,又在法國國家實驗室擔任語音信號處理博士后??傊?,她就是那種“別人家的孩子”。
自此在這二十年間,這位女博士長期專注在同一件事:如何更好地構建模型,讓機器更好地理解人話。直到,她發現了一個致命性問題。
讀博期間,張晴晴的論文研究的是“中國人說英語”,為此她要拿到200個真人的語音,只為讓機器理解中國人說英語的特點。結果,這期間她大量的精力都花在了找人說英語上,甚至走在街上,也會下意識向路人問一句:“您能幫我錄句話嗎?”而最終,機器僅花費了1天就給出了第一個實驗結果,可她卻足足花了300天用來收集人聲。
張晴晴不禁感慨,人們普遍認為,AI科學家每天的工作是構建高大上的模型,但其實絕大多數時間都用在了數據上,他們也想用好的數據幫助建模,但結果卻是像圍城一樣——這是很多AI科學家共同的難題。
那么,有沒有可能創造一個龐大的數據集,讓所有的AI科學家和公司都能夠用來訓練模型呢?這一疑問浮現在張晴晴的腦中。
直到2016年,人工智能迎來了再次爆發,張晴晴觀察到一些互聯網巨頭對于數據的需求越來越旺盛,于是從中科院離職,正式在北京創辦Magic Data。
如果要用一句話概述公司業務。張晴晴介紹,Magic Data的定位是一家多模態的人工智能數據解決方案公司,做的是多模態數據,提供的是數據的解決方案。七年來,Magic Data積累了超過60種語言、超過15萬小時的對話式AI訓練數據集,覆蓋智慧金融、智慧出行、智能社交、智能家居和智能終端等五大行業。
回想一路走來,讓張晴晴印象深刻的故事有很多,但最讓她觸動的一件事,是來自于團隊。
2017年,公司成立還不足一年,為了節約成本,張晴晴只能把公司租在北京海淀區的一座商住兩用樓里。在那段時間,北京的幾場大火波及了消防隱患小區,都需要被清查整治。
一個周日下午,消防員篩查到了這座大樓,告知大樓的消防不合規,必須立刻撤走。這意味著,張晴晴需要在幾個小時內轉移幾十位員工的辦公物品,怎么搬?搬去哪?面對突如其來的狀況,她一時不知所措:“我當時很尷尬,也不知道怎么跟員工開口,覺得自己好像挺不靠譜的。”
但她很快晃過神來:得馬上告訴大家,集結團隊的力量。而讓滿心愧疚的張晴晴欣慰的是,員工沒有一位抱怨,一晚上搞定了搬遷。第二天一早,所有人準時出現在新辦公室里,開始了新一天的辦公。
而在那個兵荒馬亂的時刻,公司還正在忙著A輪融資,也正因為整個團隊的凝聚力,Magic Data在那一周里成功拿到了A輪。
自那以后,張晴晴悟出一個道理:“創業是在和平年代里對人最有挑戰的一種生活方式,在創業過程中感受到的喜怒哀樂是幾輩子的喜怒哀樂,但反過來對于人的自我迭代也是極快的。創業是個非常有趣的過程。”
ChatGPT好比數據工廠,但是做數據難于做芯片
科技行者:ChatGPT與人交互起來對答如流,感覺它的大腦在飛速運轉,背后肯定是有海量數據在支撐吧?
張晴晴:沒錯,數據對ChatGPT的作用實在是太大了。ChatGPT起初的數據量很多,幾乎都是來自于網絡用戶的原生數據,但這些數據不能直接用,要經過分類清洗。
反過來說,你的處理速度、精度、效率都會直接影響到ChatGPT本身的質量,所以本質上它是一個工業級的生產過程,是個極具挑戰的過程。
挑戰有兩點。首先,你需要把很多人組織起來,在一個生產系統里完成事情。其次,如果我們已經構建了一個基礎的ChatGPT,剩下的就要開始做一個圍繞ChatGPT而生成的垂直領域模型,這里產生一個問題,這種垂直數據怎么獲???
垂類數據的獲取通常都非常難,特別是醫療、金融等數據,網上沒有現成的。所以這就衍生了另外一個熱門技術,叫AIGC(人工智能自動生成內容),它為什么同步火了,就是因為現實生活中的數據獲取太困難了,就想著用AI去生成類似的數據去用于訓練。
AIGC其實也叫做合成數據,合成數據中間有一個非常重要的分支,叫做simulation data(模擬數據),對于企業來講,模擬數據可以很好地實現數據場景擬合、快速交付的需求,同時數據的合規性也能得到保證。
6年前, Magic Data開始做模擬數據,實話講這在整個人工智能的數據領域,前瞻性是走得比較靠前的。
我們做的模擬數據,叫做off the shelf data(自有數據),通過模擬出各種場景,比如通話場景、車載場景、家居場景等,對模擬場景中的數據進行采集和標注,打包成分行業、分領域的垂類數據。這些數據可以快速交付企業和科研院所,助力AI研發。
科技行者:那么做模擬數據的難點是什么?
張晴晴:做數據要求很專業,我曾經跟同事講,做數據的專業度有點像是做芯片,都是一個long term(長周期)的事情。但現在我越來越覺得,做數據的難度甚至高于歷史上生產芯片的過程,因為芯片是可以被結構化的。
但是數據的差異化太大了,不同的行業、場景、甚至是不同的形態數據,里面的參數和差異度都是極大的,同時,數據要用于人工智能建模,機器在建模的過程中如何消化吸收這些數據,也是難點。
對于我們“數據人”來講,一定要先理解,才能生產出好的數據,所以雖然看上去我是一直在做數據,但是我每做一個數據,都要換位思考,思考數據在使用過程中會發生什么,這里就有大量專業的“know how”在里面。
第一點就是專業度。數據越做到后面,意味著我們要去處理數據的精度和復雜度就越高,需要的專業人士在里扎根的時間就越長。所以客觀上,我也不認為任何一家數據公司可以把所有的數據都做了,每家公司可以生根在擅長的某個方向,做深做透就很了不起了。
第二點就是規?;?。數據不可能永遠留在實驗室里,未來都還是要面臨工業級生產的問題。就像做芯片,做3納米的一顆芯片不難,難的是批量生產出一堆3納米芯片,可能也就那么幾家公司能搞出來。
數據也一樣,需要系統和人一起耦合去不斷迭代,機器在這個過程中處理哪些環節,如果機器出現異常,人應該給予什么information,讓機器再去回饋。整套流程是一個不斷打磨的過程,也是一個不斷求最優解的過程,但是你又永恒在求最優解,所以做數據是一個long term(長周期),需要你be patient(有耐心),需要你keep going(堅持不懈)。總之這對做數據的企業也是綜合性考量,要持續投入研發,不斷迭代,不斷筑高壁壘,最后沉淀下來,才能越來越好。
真正理解數據的人,就一小撮人,他們很痛苦
科技行者:Magic Data成長一年后,就有了千萬級的收入。很多創業公司技術雖好,難的是獲得收入。你們是如何破冰的?
張晴晴:虛頭巴腦的我就不講了,客觀說,任何一家企業剛起步,要想運轉起來,一定靠的是信任度,它決定了客戶是否信任你,愿意跟你合作。同時要有交付質量,這是后續合作的基礎。
我們公司發展6年間,一些主要客戶的復購幾乎沒有斷過,這反過來也證明我們是一家非常踏實的企業,從創立第一天起,我們的核心訴求就是,希望從根本上改變數據的生產力。
只要是能在生產力上面有幫助到數據的生產的,不管是從機器的研發效率、營銷、供應鏈任何環節,只要能優化的,就應該不遺余力去做,對于整個AI的賽道來講,降本增效一定能推動發展。
科技行者:咱們第一個客戶是誰?
張晴晴:我有點不記得了,但應該是中國企業,雖然我們的客戶全球都有,但最初做人工智能的基本都是現在的大廠。
科技行者:大概在兩年前,你們公司做了很多開源項目,還有一個開源社區,感覺也是在給數據的生產力蓄力。
張晴晴:真正理解數據價值的人,有時候就像圍城一樣,在那一小撮人里面,他們也很痛苦,很想用好的數據幫助到自己的建模,但是他們又很難鑒別,到底什么是好數據。
我們做了很多好數據,凝結了專家團隊的know-how,我希望告訴大家,至少在人機交互的數據領域,Magic Data是專業的,我們把一些典型的數據開源,也是希望跟其他企業創造更多價值。
科技行者:有什么細節可以證明,咱們的數據就是好數據嗎?
張晴晴:“好”可以理解成相對概念。
比如在人機交互場景里,終極形態是完全自然的交流,就像人和人對話一樣,是非常放松、想到哪說到哪的狀態。所以機器的訓練目標一定是越逼近于人類越好,我們公司長期一直在用“人類對話數據”去訓練機器。
但是哪怕在兩年前,大家都還沒有意識到這個問題,導致過去我們跟機器交流時,會覺得死板又生硬,因為傳統的數據用的是書面用語,訓練出來的機器當然死板,直到現在,大家才意識到了問題所在。
科技行者:就好比學書本英語很多年卻無法跟外國人交流一樣。說到對話式數據,又要提到ChatGPT了,Magic Data能為這類大模型做什么?
張晴晴:兩個方面。一是基礎的「大模型」,對數據的清洗和分類是ChatGPT需要的,這部分我們有高效的數據生產工具,叫做Annotator智能化標注平臺,它凝結了我們過去十幾年做數據和人工智能的經驗,如果用這套系統去處理數據,可以降本增效。
二是基于大模型做「垂類模型」。這個過程就一定會涉及到模擬數據,我們會專門設定很多指標,在這些指標下面去采集相應的數據,并且做后期打標簽的動作,如果企業直接用我們的模擬數據,去解決某些應用場景,也可以降本增效。
科技行者:前面還提到了,傳統訓練的數據是非常機械式的,而咱們用的都是人性化數據,那么咱們的數據獲取方法是怎樣的?
張晴晴:過去,互聯網公司有很多用戶,它會基于這些數據去使用,當然這存在隱私問題。
我們的方式是去中心化,反其道而行之,我們不是去拿用戶的數據,而是有一個眾包的工作平臺,大家到我的平臺來,貢獻他個人的一些數據,然后再獲取相應的報酬。比如請一個人來給我做一段表演,或者請他來念一段古詩小說,這種情況下,他產生的數據有價值,他也會拿到相應的報酬,這恰好是一種去中心化的狀態。
科技行者:無論是ChatGPT也好,還是AIGC也好,都是圍繞AI來談的,那么你怎么理解未來 AI與人類社會發展的關系?
張晴晴:要從階段性來看。在未來幾十年的周期里,人工智能會很大程度上幫助人類的工作生活,比如當老人或小孩摔倒了,智能監控會預警,這些機器肯定是有利于社會安全穩定發展的;而從更長期的角度來看,當人工智能越變越好,智能系統越來越多,大家會思考人類會不會部分被取代?我覺得不是沒有可能,我們總說奇點,可能一旦突破奇點,變化一觸即發。
躺平or卷?我更追求“被需要的價值”
科技行者:創業維艱都說爛了,你每天思考最多的問題是什么?
張晴晴:思考的問題也跟不同時期有關。早期總在想,怎么把一件事情去落地做好。
創業到第三年,考慮戰略、定位、擅長做的事。
到第四五年,也就是從去年開始,除了以上這些東西,我更多的開始關注組織的問題,一個企業的成功必定是一個組織形態的成功。
科技行者:“創業是在和平年代里對人最有挑戰的一種生活方式”,你這話說的很好,不過既然是和平年代,有人可能就一直想躺平,為什么你要這么卷?
張晴晴:躺平和卷,其實是個哲學話題,我時不時也會想一些哲學問題,比如每個人在社會上追求的到底是什么?
我也跟公司的小伙伴講,大家為什么要去做這些事,說到底是為了兩件事。眼巴前的是為了收益(錢),這個大家都會考慮,但是如果一個人只考慮錢和收益,除非這個人真的是立刻要餓死,否則是不可信的,那就意味著你的精神世界已經整個崩塌了。
所以除了錢之外,每個人一定會追尋一種“被需要的價值”,當一個人被需要,他會迸發出一種極大的發自內心的力量,這種力量會讓這個人覺得非常幸福,這也是所謂的“情緒價值”。
上面說的兩個追求,在每個人那兒的占比有所不同,而于我而言,我更需要“社會價值”。
最理想的狀態是,你對自己的評價和社會對你的評價是幾乎對等的,其實兩者一旦發生誰高誰低,你都會覺得,要么別人虧欠你,要么你好像占了別人便宜,就是這種狀態。
科技行者:對,說回到躺平和卷的兩個維度,我們或許不用去界定到底是要“躺平”還是要“卷”,可能卷累了就躺,躺累了再卷,大家其實不用只選擇一種狀態。
沿著這個話題,我們再來做一個預測。如果3~5年后,公司還能達到一個什么樣的高度,你會比較滿意?
張晴晴:可能兩三年前,你問我這個問題,我會習慣性回答一句:如果企業可以上市,我應該很滿意。
但是現在看來,要達到滿意的目標有兩者。第一者是,客戶們覺得Magic Data這家公司能夠給它們帶去價值,這對于人工智能數據的生產力也會帶去更好的推動。
第二者是,Magic Data公司里共事的小伙伴們可以因為這家企業而生活得更體面,并且他們的社會價值感會更高。
如果這兩件事情同時滿足,我就覺得這家企業讓我很滿意。
科技行者:這么看來,感覺你是一個很有奉獻精神的人,因為你個人的成就感來自于給他人帶去的價值感。
張晴晴:這么說是合理的,因為創始人其實是公司集體的化身,關鍵是自己內部的一個邏輯自洽和對于外界來講是一個價值呈現。
科技行者:那么做成一家創業公司,要具備哪些重要的品質?
張晴晴:最重要的就兩點,學習力和復盤力,這是對于創始人和創始團隊都特別重要的能力。然后第三點不是我們可以完全掌控的,就是“看天吃飯”。
復盤能力對于很多人都是極大沖突的,首先你得先否定自己,然后再去調整成一個好狀態,自己否定自己可能絕大多數人就做不到。但如果能做到的話,不管是創業者,還是非創業者,他的上升速度都會非??斓?。
科技行者:總結而言是,不斷學習讓人進步,不斷復盤讓人自省,其他的交給時運。
張晴晴:對。
科技行者:在人工智能領域,有很多女性科學家和企業家,那么如果有女性學子也想投身于這個領域,你有什么建議?
張晴晴:我覺得無論是女性還是男性,都存在一個突破自己的艱巨過程。
女性早期可能會不自信,比如自己認為是這樣的,還會習慣性去問別人“是這樣嗎”。另外女性存在一些天然色彩,比如習慣減少沖突、或是要讓周圍人感覺舒適等,這里有好的方面,就看怎么去用它。在創業這件事上,有時候反倒需要“獨裁”,獨裁這個詞不好聽,但也代表著對于自己所要干的事情更加篤定。你敢于去做決策,并且堅定不移朝著這個方向走下去。
男性要突破的,就是承認自己曾經錯過而重新再來的過程。所以,創業對男性女性都不容易,不過新時代有個詞叫做“女性經濟”,對于女性創業或女性出現在商界,大家的包容度好像真的變高很多了。
好文章,需要你的鼓勵
想象一下,你有一個非常聰明的朋友,他知道很多知識,但每當需要使用計算器、搜索引擎或查詢最新天氣時,卻變得像個笨手笨腳的孩子。這正是當前大語言模型(簡稱LLMs,如ChatGPT這類AI系統)面臨的尷尬處境。
想象一下,你擁有一個聰明的助手,它知道很多知識,但在面對需要使用計算器、搜索引擎或查詢最新信息時卻顯得笨手笨腳。這正是當前大語言模型(LLMs)面臨的困境。雖然這些模型已經通過監督微調(SFT)學會了使用工具的基本能力,但它們常常在面對復雜或不熟悉的場景時表現不佳。
想象你正在和一個智能助手聊天。如果你直接要求它提供有害信息,它很可能會禮貌拒絕。但如果你通過一系列看似無害的對話,逐步引導它走向你的真實目標呢?這就是當前AI安全領域面臨的一個嚴峻挑戰——多輪對話中的安全漏洞。
想象你在使用一個非常聰明的AI助手完成一項復雜任務,比如解決一道數學難題。你可能注意到這個助手會花很長時間"思考",一步一步寫下大量推理過程,最后才給出答案。雖然這種詳細的思考過程確實幫助AI做出了更準確的判斷,但同時也帶來了一個明顯的問題:它太"啰嗦"了,消耗了大量的計算資源和時間。