Рейтинг исследователей искусственного интеллекта 2019 года

12 min readDec 23, 2020

Об авторе: Меня зовут Глеб Чувпило. Я управляющий партнер венчурной компании Thundermark Capital, где мы инвестируем в стартапы в области искусственного интеллекта и робототехники. У меня степень магистра Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и степень MBA в области финансов и стратегического менеджмента Уортонской школы бизнеса Пенсильванского университета. Пожалуйста, напишите мне по адресу gleb@thundermark.com если Вы хотите поговорить об искусственном интеллекте, робототехнике, инновациях вообще или о своей идее для стартапа в частности. 🤖

Авторский перевод статьи на английский язык находится здесь.

Предисловие

Представляем Вам наш ежегодный рейтинг мировых лидеров в сфере искусственного интеллекта за 2019 год (здесь находится первый рейтинг, опубликованный в 2018 году). На этот раз мы проанализировали статьи с двух самых престижных конференций по искусственному интеллекту, Конференции по нейронным системам обработки информации (Neural Information Processing Systems или NeurIPS или NIPS) и Международной конференции по машинному обучению (International Conference on Machine Learning или ICML). Используя материалы конференций (NeurIPS 2019 и ICML 2019), мы взяли каждую из 2200 статей и составили список авторов и связанных с ними организаций, а затем вычислили индекс публикаций для каждой из этих организаций (см. далее главу “Методология”). Самое интуитивное объяснение понятия “индекс публикаций” — с точки зрения эквивалентных полных статей: индекс публикаций Google, равный 167,3, можно интерпретировать так, как если бы Google опубликовал 167,3 полных статей на двух ведущих конференциях по искусственному интеллекту в 2019 году.

Мы начнем анализ с подробностей методологии, продолжим главой с рейтингом мировых лидеров в сфере искусственного интеллекта за 2019 год, затем покажем дальнейшие интересные описательные статистические данные и завершим дискуссией о том, какие страны лидируют в сфере искусственного интеллекта.

Методология

Методология нашего индекса публикаций получила вдохновение от индекса журнала Nature (Nature Index):

Для определения вклада страны, региона или учреждения в статью и обеспечения того, чтобы они не учитывались более одного раза, индекс Nature использует дробный подсчет (ДП), который учитывает долю авторства по каждой статье. Общая сумма ДП, доступная для каждой статьи, равна 1, и она распределяется между всеми авторами при условии, что каждый из них внес свой вклад в равной степени. Например, статья с 10 авторами означает, что каждый автор получает оценку 0.1. Для авторов, связанных более чем с одним учреждением, авторский ДП затем делится поровну между каждым учреждением. Общая сумма ДП для учреждения рассчитывается путем суммирования ДП для отдельных аффилированных авторов. Этот процесс аналогичен для стран/регионов, хотя и осложняется тем фактом, что некоторые учреждения имеют зарубежные лаборатории, которые будут учитываться при подсчете итоговых данных по принимающей стране/региону.

Единственная разница заключается в том, что наш индекс публикаций учитывает зарубежные лаборатории по стране/региону штаб-квартиры (а не принимающей стране/региону). Это спорный момент, но мы считаем, что такой подход лучше отражает передачу интеллектуальной собственности и соответствующую выгоду, получаемую штаб-квартирой, а не местной лабораторией.

Вот пример расчета индекса публикации. Если у статьи пять авторов — три из Массачусетского технологического института (MIT), один из Оксфордского университета и один из Google, то каждый автор получит 1/5 от одного балла, или 0,2. В результате только из этой статьи MIT увеличит свой индекс публикаций на 3*0,2=0,6 пункта, Оксфордский университет увеличит свой индекс на 0,2, а Google добавит 0,2. Поскольку MIT базируется в Соединенных Штатах, MIT увеличит индекс публикаций США на 0,6. Аналогичным образом, поскольку Оксфордский университет базируется в Великобритании, категория “Европейская экономическая зона + Швейцария” увеличится на 0,2. Наконец, Google является многонациональной корпорацией со штаб-квартирой в Соединенных Штатах, поэтому Соединенные Штаты увеличат свой индекс публикаций еще на 0,2, а общее увеличение составит 0,8. Если у автора несколько аффилированных организаций, мы разделяем его долю на каждую из этих организаций. Например, в приведенном выше случае, если бы последний автор перечислил две аффилированных организации, Google и Стэнфордский университет (а не только Google), то и Google, и Стэнфордский университет получат дополнительные 0,2/2=0,1 балла.

Наконец, причина, по которой мы посчитали возможным объединить публикации NeurIPS и ICML в общий анализ, заключается в том, что у них схожий престиж среди ведущих исследователей искусственного интеллекта, схожее институциональное участие и схожая вероятность принятия статей к публикации (21,2% для NeurIPS и 22,6% для ICML).

Рейтинг мировых лидеров в сфере искусственного интеллекта за 2019 год

Топ-40 глобальных организаций (коммерческие и научные организации), лидирующих в сфере искусственного интеллекта в 2019 году (с индексами публикаций):

Рейтинг в сфере искусственного интеллекта за 2019 год: Топ-40 глобальных организаций (коммерческие и научные организации), лидирующих в сфере искусственного интеллекта в 2019 году

1. Google (CША) — 167,3
2. Стэнфордский университет (CША) — 82,3
3. Массачусетский технологический институт (CША) — 69,8
4. Университет Карнеги — Меллона (CША) — 67,7
5. Калифорнийский университет в Беркли (CША) — 54,0
6. Microsoft (CША) — 51,9
7. Оксфордский университет (Великобритания) — 37,7
8. Facebook (CША) — 33,1
9. Принстонский университет (CША) — 31,5
10. Корнеллский университет (CША) — 30,9
11. Технологический институт Джорджии (CША) — 30,1
12. Техасский университет в Остине (CША) — 29,9
13. Иллинойсский университет (CША) — 29,4
14. Колумбийский университет (CША) — 29,2
15. Университет Цинхуа (Китай) — 28,4
16. Калифорнийский университет в Лос-Анджелесе (CША) — 27,2
17. Швейцарская высшая техническая школа Цюриха (Швейцария) — 27,0
18. IBM (CША) — 25,8
19. Вашингтонский университет (CША) — 24,0
20. INRIA — Государственный институт исследований в информатике и автоматике (Франция) — 23,2
21. Федеральная политехническая школа Лозанны (Швейцария) — 22,3
22. Пекинский университет (Китай) — 21,6
23. Торонтский университет (Канада) — 21,4
24. Гарвардский университет (CША) — 19,2
25. Университет Дьюка (CША) — 18,7
26. Нью-Йоркский университет (CША) — 17,7
27. Кембриджский университет (Великобритания) — 15,1
28. KAIST — Корейский институт передовых технологий (Южная Корея) — 14,8
29. Технион (Израиль) — 14,6
30. Калифорнийский университет в Сан-Диего (CША) — 14,6
31. Висконсинский университет в Мадисоне (CША) — 14,4
32. Amazon (CША) — 14,3
33. Массачусетский университет в Амхерсте (CША) — 13,8
34. Университетский колледж Лондона (Великобритания) — 13,7
35. MILA — Институт обучающихся алгоритмов Монреаля (Канада) — 13,5
36. Университет Южной Калифорнии (CША) — 13,5
37. Пенсильванский университет (CША) — 13,3
38. Сеульский национальный университет (Южная Корея) — 12,7
39. Университет Джонса Хопкинса (CША) — 12,6
40. RIKEN — Институт физико-химических исследований (Япония) — 12,3

Топ-20 регионов, лидирующих в сфере искусственного интеллекта в 2019 году (с индексами публикаций):

Рейтинг в сфере искусственного интеллекта за 2019 год: Топ-20 регионов, лидирующих в сфере искусственного интеллекта в 2019 году

1. США — 1260,2
2. Европейская экономическая зона* + Швейцария — 431,5
3. Китай — 184,5
4. Канада — 80,3
5. Япония — 49,4
6. Южная Корея — 46,8
7. Израиль — 43,3
8. Австралия — 27,0
9. Индия — 17,1
10. Сингапур — 13,2
11. Россия — 10,6
12. Тайвань — 5,3
13. Саудовская Аравия — 5,0
14. Объединенные Арабские Эмираты — 2,3
15. Иран — 2,2
16. ЮАР — 1,0
17. Чили — 1,0
18. Малайзия — 0,7
19. Турция — 0,6
20. Новая Зеландия — 0,5

*Европейская экономическая зона включает следующие страны: Австрия, Бельгия, Болгария, Венгрия, Германия, Греция, Дания, Ирландия, Испания, Италия, Кипр, Латвия, Литва, Люксембург, Мальта, Нидерланды, Польша, Португалия, Румыния, Словакия, Словения, Великобритания, Исландия, Лихтенштейн, Норвегия, Финляндия, Франция, Хорватия, Чешская Республика, Швеция и Эстония (источник).

Топ-20 стран, лидирующих в сфере искусственного интеллекта в 2019 году (с индексами публикаций):

Рейтинг в сфере искусственного интеллекта за 2019 год: Топ-20 стран, лидирующих в сфере искусственного интеллекта в 2019 году

1. США — 1260,2
2. Китай — 184,5
3. Великобритания — 126,1
4. Франция — 94,3
5. Канада — 80,3
6. Германия — 64,5
7. Швейцария — 59,3
8. Япония — 49,4
9. Южная Корея — 46,8
10. Израиль — 43,3
11. Австралия — 27,0
12. Индия — 17,1
13. Нидерланды — 15,3
14. Сингапур — 13,2
15. Дания — 12,2
16. Италия — 11,5
17. Швеция — 11,3
18. Россия — 10,6
19. Финляндия — 9,6
20. Австрия — 7,4

Топ-20 американских университетов, лидирующих в сфере искусственного интеллекта в 2019 году (с индексами публикаций):

Рейтинг в сфере искусственного интеллекта за 2019 год: Топ-20 американских университетов, лидирующих в сфере искусственного интеллекта в 2019 году

1. Стэнфордский университет — 82,3
2. Массачусетский технологический институт — 69,8
3. Университет Карнеги — Меллона — 67,7
4. Калифорнийский университет в Беркли — 54,0
5. Принстонский университет — 31,5
6. Корнеллский университет — 30,9
7. Технологический институт Джорджии — 30,1
8. Техасский университет в Остине — 29,9
9. Иллинойсский университет — 29,4
10. Колумбийский университет — 29,2
11. Калифорнийский университет в Лос-Анджелесе — 27,2
12. Вашингтонский университет — 24,0
13. Гарвардский университет — 19,2
14. Университет Дьюка — 18,7
15. Нью-Йоркский университет — 17,7
16. Калифорнийский университет в Сан-Диего — 14,6
17. Висконсинский университет в Мадисоне — 14,4
18. Массачусетский университет в Амхерсте — 13,8
19. Университет Южной Калифорнии — 13,5
20. Пенсильванский университет — 13,3

Топ-20 глобальных университетов, лидирующих в сфере искусственного интеллекта в 2019 году (с индексами публикаций):

Рейтинг в сфере искусственного интеллекта за 2019 год: Топ-20 глобальных университетов, лидирующих в сфере искусственного интеллекта в 2019 году

1. Стэнфордский университет (США) — 82,3
2. Массачусетский технологический институт (США) — 69,8
3. Университет Карнеги — Меллона (США) — 67,7
4. Калифорнийский университет в Беркли (США) — 54,0
5. Оксфордский университет (Великобритания) — 37,7
6. Принстонский университет (США) — 31,5
7. Корнеллский университет (США) — 30,9
8. Технологический институт Джорджии (США) — 30,1
9. Техасский университет в Остине (США) — 29,9
10. Иллинойсский университет (США) — 29,4
11. Колумбийский университет (США) — 29,2
12. Университет Цинхуа (Китай) — 28,4
13. Калифорнийский университет в Лос-Анджелесе (США) — 27,2
14. Швейцарская высшая техническая школа Цюриха (Швейцария) — 27,0
15. Вашингтонский университет (США) — 24,0
16. INRIA — Государственный институт исследований в информатике и автоматике (Франция) — 23,2
17. Федеральная политехническая школа Лозанны (Швейцария) — 22,3
18. Пекинский университет (Китай) — 21,6
19. Торонтский университет (Канада) — 21,4
20. Гарвардский университет (США) — 19,2

Топ-20 компаний, лидирующих в сфере искусственного интеллекта в 2019 году (с индексами публикаций):

Рейтинг в сфере искусственного интеллекта за 2019 год: Топ-20 компаний, лидирующих в сфере искусственного интеллекта в 2019 году

1. Google (США) — 167,3
2. Microsoft (США) — 51,9
3. Facebook (США) — 33,1
4. IBM (США) — 25,8
5. Amazon (США) — 14,3
6. Tencent (Китай) — 8,8
7. Alibaba (США) — 7,5
8. Bosch (Германия) — 7,2
9. Uber (США) — 7,1
10. Intel (США) — 6,9
11. Toyota (Япония) — 6,0
12. Яндекс (Россия) — 5,8
13. Baidu (Китай) — 5,5
14. Nvidia (США) — 5,2
15. Apple (США) — 4,6
16. Salesforce (США) — 4,2
17. PROWLER.io (Великобритания) — 4,2
18. Criteo (Франция) — 3,9
19. Huawei (Китай) — 3,7
20. NEC (Япония) — 3,5

Дальнейший анализ

Научные и коммерческие организации — доля в суммарном индексе публикаций:

Научные организации — 77.8%
Коммерческие организации — 22.2%

Топ-150 слов в 2200 названиях статей на NeurIPS 2019 и ICML 2019 (“облако слов”):

Топ-30 стран по индексу публикаций на душу населения (индекс публикаций поделён на население страны в миллионах):

Рейтинг в сфере искусственного интеллекта за 2019 год: Топ-30 стран по индексу публикаций на душу населения

1. Швейцария — 6,97
2. Израиль — 4,88
3. США — 3,85
4. Сингапур — 2,34
5. Канада — 2,17
6. Дания — 2,11
7. Великобритания — 1,90
8. Финляндия — 1,75
9. Франция — 1,41
10. Швеция — 1,11
11. Австралия — 1,08
12. Южная Корея — 0,91
13. Нидерланды — 0,89
14. Австрия — 0,84
15. Германия — 0,78
16. Латвия — 0,67
17. Бельгия — 0,44
18. Эстония — 0,44
19. Япония — 0,39
20. Норвегия — 0,32
21. Кипр — 0,28
22. Объединенные Арабские Эмираты — 0,26
23. Тайвань — 0,22
24. Ирландия — 0.21
25. Италия — 0,19
26. Саудовская Аравия — 0,15
27. Греция — 0,14
28. Китай — 0,13
29. Чехия — 0,11
30. Новая Зеландия — 0,11

Карта топ-40 глобальных организаций, ведущих исследования в сфере искусственного интеллекта (площадь пропорциональна индексу публикаций):

Рейтинг в сфере искусственного интеллекта за 2019 год: Карта топ-40 глобальных организаций

В совокупности 40 ведущих организаций внесли 55% от общего индекса публикаций, при этом совокупное значение составило 1212,3 из 2200 общих показателей.

Измерение конкуренции в сфере искусственного интеллекта (индекс Херфиндаля):

Индекс Херфиндаля (также известный как индекс Херфиндаля-Хиршмана) является мерой размера участников по отношению к отрасли и показателем уровня конкуренции между ними.

Расчёт:

Расчет индекса Херфиндаля: si — доля рынка (проценты используются как целые числа, т.е. 75 вместо 0,75), а N — число участников.

Объяснение:

H ниже 100 указывает на высокую конкурентоспособность отрасли.
H ниже 1500 указывает на неконцентрированную промышленность.
H между 1500 и 2500 указывает на умеренную концентрацию.
H выше 2500 указывает на высокую концентрацию.

Для нашего набора данных (с использованием доли каждой организации в общем индексе публикаций): H=146,47, что указывает на неконцентрированную отрасль. Иными словами, в 2019 году нет никаких признаков монополизации исследований искусственного интеллекта.

Дискуссия: Кто мировой лидер в сфере искусственного интеллекта?

Сегодня идут жаркие дебаты о состоянии стратегической гонки между США и Китаем за доминирование в сфере искусственного интеллекта. Мы склоняемся к более сбалансированной перспективе, но прежде чем мы проведём наш анализ, начнём с небольшого экскурса в историю:

В 2016 году в области искусственного интеллекта произошли два крупных события: в марте AlphaGo компании Google стала первой компьютерной программой, которая обыграла профессионального игрока в Го, Ли Седола; в октябре администрация президента Обамы выпустила стратегию под названием “Подготовка к будущему искусственного интеллекта”.
В Китае эти два события создали эффект будильника, который помог убедить китайское правительство расставить приоритеты и резко увеличить финансирование искусственного интеллекта (см. книгу Кай-Фу Ли “Сверхдержавы искусственного интеллекта”).
В ответ на это в июле 2017 года Коммунистическая партия Китая установила 2030 год в качестве крайнего срока для достижения амбициозной цели в области искусственного интеллекта: она призвала Китай достичь высшего уровня искусственного интеллекта к 2020 году, достичь крупных новых прорывов к 2025 году и стать мировым лидером к 2030 году. Эта стратегия стала известна как “План развития искусственного интеллекта нового поколения”, и она простимулировала многие миллиарды долларов инвестиций в исследования и разработки со стороны министерств, провинциальных правительств и частных компаний.
Некоторые аналитические центры, такие как CNAS, утверждают, что китайская стратегия искусственного интеллекта отражает ключевые принципы из доклада администрации Обамы — только теперь их воплощает Китай, а не Соединенные Штаты.
Эта стратегия копирования не нова: цитируя слова Питера Тиля в книге “От нуля к единице”, “ китайцы прямо копировали все, что работало в развитом мире: железные дороги 19-го века, кондиционеры 20-го века и даже целые города. Они могут пропустить несколько шагов по пути — например, перейти прямо к беспроводной связи без установки стационарных телефонов, — но они все равно копируют.”
2017 год — это именно тот год, когда мы начали отслеживать состояние исследований в сфере искусственного интеллекта, поэтому мы установили базовый уровень Китая, обобщенный в следующей диаграмме. Она показывает, что у Соединенных Штатов 11-кратное лидерство против Китая в общем индексе публикаций:

Топ-10 стран, лидирующих в сфере искусственного интеллекта в 2017 году: у США 11-тикратное преимущество против Китая

В 2019 году США лидируют уже только в 7 раз (США — 1260,2, Китай — 184,5), поэтому разрыв явно сокращается. Кроме того, анализ, проведенный Институтом искусственного интеллекта Аллена, показал, что Китай неуклонно увеличивает свою долю авторства в топ-10% наиболее цитируемых статей: доля Китая в 2018 году составила 26,5%, не сильно уступая Соединенным Штатам — 29%.

Можно сказать, что это не очень хорошие новости для американской конкурентоспособности в области искусственного интеллекта в следующем десятилетии. Однако мы полагаем, что результат будет зависеть от взаимодействия трех ключевых компонентов современного искусственного интеллекта: алгоритмов, аппаратных средств и обучающих данных, ибо для того, чтобы доминировать в этой области, необходимо правильно использовать все три компонента.

Мы полагаем, что в ближайшие годы Соединенные Штаты продолжат лидировать в области алгоритмов искусственного интеллекта, что основано на нескольких десятилетиях опыта развития компьютерных наук в университетах мирового класса, таких как Массачусетский технологический институт, Стэнфордский университет, Университет Карнеги — Меллона и Калифорнийский университет в Беркли. Кроме того, открытость Google и Facebook к публикации внутренних исследований на конференциях создала процветающую экосистему (и своего рода проходную) для ведущих исследователей искусственного интеллекта, которые беспрепятственно перемещаются между академическими и коммерческими организациями (например, Ян Лекун или Эндрю Ын).

Кроме того, Соединенные Штаты — это родина Кремниевой долины (в её первоначальном определении, ориентированном на микросхемы), которая была на передовой аппаратных инноваций с тех пор, как “вероломная восьмерка” покинула лабораторию полупроводников Шокли, чтобы основать Fairchild Semiconductor в 1957 году. Алгоритмы глубокого обучения чрезвычайно требовательны к вычислениям, прямо как и майнинг биткойна, который теперь потребляет больше энергии, чем Швейцария. Мы считаем, что Китаю будет крайне трудно догнать Соединенные Штаты в области аппаратного обеспечения в течение следующего десятилетия.

Однако американское преимущество сомнительно в области обучающих данных, и так было задумано. Это, по сути, часть более широкой дискуссии о частной жизни и общественном благе, где Соединенные Штаты склонны выбирать первое, а Китай — второе. Сегодня в Китае искусственный интеллект сканирует лица с сотен миллионов уличных камер, читает миллиарды сообщений WeChat и анализирует миллионы медицинских карт — и все это в соответствии с аргументом “данные как общественное благо”. Такая доступность обучающих данных в сочетании с населением Китая в 1,4 млрд человек создает огромное стратегическое преимущество для Китая.

Точные выводы сделать трудно, но мы все же думаем, что первые два фактора (алгоритмы и аппаратные средства) перевесят последний (доступность обучающих данных), и Соединенные Штаты сохранят свое лидерство в области искусственного интеллекта на долгие годы вперёд.

Данные

Поскольку конференции не публикуют данные о статьях в стандартной форме, нам пришлось делать анализ вручную (анализ HTML, преобразования в Python, стандартизация имен и несколько неизвестных организаций). Если Вы обнаружите какие-либо ошибки, пожалуйста, напишите нам, и мы будем рады их исправить. Если Вы хотите скачать наш набор данных, он размещен здесь. Желаем успехов!