首页 > 其他分享> > elasticsearch（四） index 跨集群迁移

elasticsearch（四） index 跨集群迁移

2022-01-10 22:32:07 作者：互联网

项目一：elasticsearch 迁移方案

elasticsearch 索引迁移

查看参考文档：https://www.elastic.co/guide/en/elasticsearch/reference/7.15/docs-reindex.html

添加需要迁移的es集群白名单到目的 es配置文件elasticsearch.yml

reindex.remote.whitelist: "otherhost:9200, another:9200, 127.0.10.*:9200, localhost:*"

kibana 开发工具界面使用_reindex，重新创建索引。或者用curl命令都行

#kibana 界面运行，数据量过大，下面的配置
POST _reindex?wait_for_completion=false
{和下面相同的内容}


#使用curl 命令
curl -X POST "localhost:9200/_reindex?pretty" -H 'Content-Type: application/json' -d'
{
  "source": {
    "remote": {
      "host": "http://otherhost:9200",
      "username": "user",
      "password": "pass"
    },
    "index": "my-index-000001",
    "size": 10,			
    "socket_timeout": "1m",
    "connect_timeout": "10s",
    "query": {						#查询匹配到的文档，只创建这些文档，不设置就复制所有索引
      "match": {
        "test": "data"
      }
    }
  },
  "dest": {
    "index": "my-new-index-000001"
  }
}

size 10 #从远程服务器重新索引使用默认最大大小为 100mb 的堆上缓冲区。如果远程索引包含非常大的文档，您将需要使用较小的批量大小。下面的示例将批量大小设置10 为非常非常小。
"socket_timeout": "1m",
"connect_timeout": "10s"
还可以使用socket_timeout字段设置远程连接上的套接字读取超时，以及使用字段设置连接超时 connect_timeout。两者都默认为 30 秒。此示例将套接字读取超时设置为一分钟，将连接超时设置为 10 秒：

GET _tasks/task_id 根据执行后返回的task_id 查询 reindex 执行情况。

reindex 提升效率：

Reindex支持Sliced Scroll以并行化重建索引过程。这种并行化可以提高效率，并提供一种方便的方法将请求分解为更小的部分。

sliced原理（from medcl）

1）用过Scroll接口吧，很慢？如果你数据量很大，用Scroll遍历数据那确实是接受不了，现在Scroll接口可以并发来进行数据遍历了。
2）每个Scroll请求，可以分成多个Slice请求，可以理解为切片，各Slice独立并行，利用Scroll重建或者遍历要快很多倍。

elasticsearch 全部数据迁移

直接复制es设置的path.data后面的目录到目标es

项目二：elasticsearch 写入性能优化

增加refresh间隔

默认的refresh间隔是1s，用index.refresh_interval参数可以设置，这样会其强迫es每秒中都将内存中的数据写入磁盘中，创建一个新的segment file。正是这个间隔，让我们每次写入数据后，1s以后才能看到。但是如果我们将这个间隔调大，比如30s，可以接受写入的数据30s后才看到，那么我们就可以获取更大的写入吞吐量，因为30s内都是写内存的，每隔30s才会创建一个segment file。
index buffer

如果我们要进行非常重的高并发写入操作，那么最好将index buffer调大一些，indices.memory.index_buffer_size，这个可以调节大一些，设置的这个index buffer大小，是所有的shard公用的，但是如果除以shard数量以后，算出来平均每个shard可以使用的内存大小，一般建议，但是对于每个shard来说，最多给512mb，因为再大性能就没什么提升了。es会将这个设置作为每个shard共享的index buffer，那些特别活跃的shard会更多的使用这个buffer。默认这个参数的值是10%，也就是jvm heap的10%，如果我们给jvm heap分配10gb内存，那么这个index buffer就有1gb，对于两个shard共享来说，是足够的了。

https://blog.csdn.net/lm324114/article/details/105028701/

标签：index,reindex,buffer,shard,elasticsearch,timeout,集群
来源： https://www.cnblogs.com/fengfengyang/p/15786325.html